pandas 中的新列，其值取决于其他列

在使用 pandas 进行数据分析时，我们经常会遇到需要根据已有的列生成新的列的情况。这种情况下，新列的值往往取决于其他列的值。幸运的是，pandas 提供了很多灵活的方法来实现这一功能，使我们能够轻松地处理复杂的数据逻辑。

首先，让我们来看一个简单的例子。假设我们有一个包含学生信息的数据集，其中包括学生的姓名、年龄和成绩。我们想要根据学生的成绩来生成一个新的列，表示他们的等级。根据一般的标准，我们可以将成绩大于等于90分的学生定义为优秀，大于等于80分的学生定义为良好，大于等于70分的学生定义为中等，其余的学生定义为不及格。

在 pandas 中，我们可以使用 `apply` 方法来实现这一功能。首先，我们定义一个函数，根据学生的成绩返回对应的等级。然后，我们使用 `apply` 方法将这个函数应用到成绩这一列上，生成新的等级列。

下面是相应的代码示例：

 python
import pandas as pd
# 创建学生信息数据集
data = {'姓名': ['张三', '李四', '王五', '赵六'],
        '年龄': [18, 19, 20, 21],
        '成绩': [85, 92, 78, 65]}
df = pd.DataFrame(data)
# 定义根据成绩生成等级的函数
def get_grade(score):
    if score >= 90:
        return '优秀'
    elif score >= 80:
        return '良好'
    elif score >= 70:
        return '中等'
    else:
        return '不及格'
# 根据成绩生成等级列
df['等级'] = df['成绩'].apply(get_grade)
print(df)

运行以上代码，我们会得到一个新的数据集，其中包含了学生的姓名、年龄、成绩和等级。可以看到，新的等级列的值是根据成绩列的值生成的，符合我们的预期。

接下来，让我们来探讨一些更复杂的情况。有时候，我们需要根据多个列的值来生成新的列。在这种情况下，我们可以使用 `apply` 方法的 `axis` 参数来指定按行或按列应用函数。默认情况下，`axis` 的值为 0，表示按列应用函数。如果我们将 `axis` 的值设置为 1，就可以按行应用函数。

假设我们现在有一个包含学生的各科成绩的数据集，我们想要根据这些成绩计算学生的总分，并生成一个新的列。我们可以使用 `apply` 方法按行应用一个函数，该函数接收每一行的数据作为参数，并返回对应的总分。

以下是相应的代码示例：

 python
import pandas as pd
# 创建学生成绩数据集
data = {'姓名': ['张三', '李四', '王五', '赵六'],
        '语文': [85, 92, 78, 65],
        '数学': [90, 88, 72, 80],
        '英语': [95, 85, 76, 68]}
df = pd.DataFrame(data)
# 定义计算总分的函数
def calculate_total(row):
    return row['语文'] + row['数学'] + row['英语']
# 根据各科成绩计算总分列
df['总分'] = df.apply(calculate_total, axis=1)
print(df)

运行以上代码，我们会得到一个新的数据集，其中包含了学生的姓名、语文成绩、数学成绩、英语成绩和总分。可以看到，新的总分列的值是根据各科成绩列的值生成的，符合我们的预期。

根据其他列生成新列的应用案例

在实际的数据分析中，我们常常需要根据已有的列生成新的列来进行更深入的数据挖掘和分析。通过使用 pandas 提供的强大功能，我们可以轻松地实现这一目标。

例如，我们可以根据用户的购买记录来生成一个新的列，表示他们的购买频率。根据一般的标准，我们可以将购买次数大于等于5次的用户定义为高频购买用户，大于等于3次的用户定义为中频购买用户，其余的用户定义为低频购买用户。

我们可以使用 `apply` 方法和 `lambda` 表达式来实现这一功能。首先，我们根据用户的购买记录计算出购买次数，并将其存储在一个新的列中。然后，我们使用 `apply` 方法和 `lambda` 表达式将购买次数转换为购买频率，并将其存储在另一个新的列中。

以下是相应的代码示例：

 python
import pandas as pd
# 创建用户购买记录数据集
data = {'用户ID': [1, 2, 3, 4, 5],
        '购买记录': ['AABB', 'AAB', 'AB', 'AA', 'A']}
df = pd.DataFrame(data)
# 计算购买次数
df['购买次数'] = df['购买记录'].apply(lambda x: len(x))
# 根据购买次数生成购买频率列
df['购买频率'] = df['购买次数'].apply(lambda x: '高频购买用户' if x >= 5 else '中频购买用户' if x >= 3 else '低频购买用户')
print(df)

运行以上代码，我们会得到一个新的数据集，其中包含了用户的ID、购买记录、购买次数和购买频率。可以看到，新的购买次数列和购买频率列的值是根据购买记录列的值生成的，符合我们的预期。

在本文中，我们介绍了如何使用 pandas 中的新列来实现根据其他列生成新列的功能。通过使用 `apply` 方法和自定义的函数，我们可以轻松地处理复杂的数据逻辑，并生成符合我们需求的新列。无论是简单的逻辑还是复杂的逻辑，pandas 都提供了灵活的方法来满足我们的需求。希望本文对您在数据分析中使用 pandas 生成新列有所帮助！

上一篇：pandas 中的新列 - 通过应用列表 groupby 将系列添加到数据框下一篇：pandas 中的旋转问题（在 R 中传播）

=

Pandas：将列添加到多索引列数据框中: 　　　　使用Pandas可以轻松地对数据进行处理和分析，其中一个强大的功能是将列添加到多索引列数据框中。多索引列数据框是一种具有层次结构的数据结构，可以更好地组织和管理数据。...... ...
Pandas：将列中的列表拆分为多行[重复]: 　　　　使用Pandas将列中的列表拆分为多行在数据分析和处理中，经常会遇到需要将某一列中的列表拆分为多行的情况。这种情况下，我们可以使用Python中的Pandas库来实现这个功能。Pa...... ...
Pandas：将分类列分解为多列: 　　　　Pandas：将分类列分解为多列在数据分析和处理中，分类列是经常遇到的一种数据类型。然而，有时候我们需要将分类列分解为多列，以便更好地进行分析和可视化。在Python中，Pa...... ...
Pandas：将函数应用于每对列: 　　　　使用 Pandas 对每对列应用函数Pandas 是一个强大的数据分析工具，它提供了许多方便的函数和方法，使我们能够高效地处理和分析数据。其中之一就是可以对每对列应用函数的功能...... ...
Pandas：将不等长度列表的列拆分为多列: 　　　　将不等长度列表的列拆分为多列在数据分析和处理中，经常会遇到一种情况，即数据集中的某一列包含的是不等长度的列表。这可能是由于不同的观测值具有不同数量的元素，或者是...... ...
Pandas：将不同的函数应用于不同的列: 　　　　使用Pandas将不同的函数应用于不同的列在数据处理和分析的过程中，经常需要对不同的列应用不同的函数。Pandas是一个强大的Python库，提供了丰富的函数和方法来处理和分析数...... ...
Pandas：将一行附加到数据帧并指定其索引标签: 　　　　使用Pandas将一行附加到数据帧并指定其索引标签在数据分析和处理中，Pandas是一个非常强大的Python库。它提供了许多功能，方便我们对数据进行操作和分析。其中一个常见的需...... ...
pandas：将一系列 DataFrame 转换为单个 DataFrame: 　　　　使用pandas库可以方便地将一系列DataFrame转换为单个DataFrame。这在处理大量数据时非常有用，可以将多个数据集合并为一个更大的数据集，方便进行统计分析和数据处理。本文...... ...
Pandas：将 TimeGrouper 与另一个 Groupby 参数结合起来: 　　　　使用Pandas进行数据处理和分析时，经常需要对时间序列数据进行聚合。Pandas中的TimeGrouper函数可以帮助我们按照指定的时间段对数据进行分组。然而，有时候我们还需要使用其...... ...
Pandas：将 timedelta 列添加到日期时间列（矢量化）: 　　　　使用Pandas库对日期和时间进行操作是数据分析中常见的任务之一。在处理时间序列数据时，经常需要对日期和时间进行计算和处理。在Pandas中，可以使用timedelta对象来表示时间...... ...
Pandas：将 dtype 'object' 转换为 int: 　　　　Pandas是一个功能强大的Python库，用于数据分析和处理。在数据处理过程中，经常会遇到将dtype为'object'的数据转换为int类型的需求。本文将介绍如何使用Pandas来实现这一转...... ...
Pandas：将 DataFrame 与稀疏矩阵连接: 　　　　使用Pandas库中的DataFrame与稀疏矩阵进行连接是数据处理中常见的操作之一。Pandas是一个强大的数据分析工具，而稀疏矩阵则是一种优化存储空间的数据结构。本文将介绍如何使...... ...
Pandas：对给定列的 DataFrame 行求和: 　　　　Pandas：对给定列的 DataFrame 行求和在数据分析和处理中，经常需要对 DataFrame 中的某一列进行求和操作。Pandas 是一个强大的数据分析工具，它提供了丰富的功能来处理和操...... ...
Pandas：对数据帧进行采样[重复]: 　　　　如何使用Pandas对数据框进行采样Pandas是Python中一个强大的数据分析库，它提供了丰富的功能来处理和分析数据。其中之一是对数据框进行采样，即从数据框中随机选择一部分数...... ...
pandas：对于 df 中的每一行复制行 N 次，略有变化: 　　　　使用pandas对数据进行行复制和变化在数据分析和处理中，经常会遇到需要对数据进行复制和变化的情况。如果我们使用Python的pandas库，可以简单高效地完成这个任务。本文将介...... ...