pandas 中类似 SQL 的连接

使用Pandas中的类似SQL的连接功能，可以轻松地在Python中处理和分析数据。这种连接操作类似于SQL中的JOIN操作，可以将多个数据集合并在一起，以便进行更复杂的数据操作和分析。

连接操作的概念

在Pandas中，连接操作主要包括三种类型：合并（Merge）、连接（Join）和连接（Concatenate）。这些操作可以根据不同的需求，将多个数据集按照指定的条件进行合并或连接。

合并操作

合并操作是将两个数据集按照指定的列或索引进行合并，形成一个新的数据集。合并操作常用于将两个数据集中的共同字段进行匹配，合并成一个更完整的数据集。

下面是一个简单的例子，假设我们有两个数据集A和B，分别包含了学生的基本信息和成绩信息。我们可以使用合并操作将这两个数据集合并在一起，得到一个包含了学生基本信息和成绩信息的完整数据集。

python
import pandas as pd
# 创建数据集A
data_A = {'学号': ['001', '002', '003', '004'],
          '姓名': ['张三', '李四', '王五', '赵六']}
df_A = pd.DataFrame(data_A)
# 创建数据集B
data_B = {'学号': ['001', '002', '003', '005'],
          '成绩': [80, 90, 85, 95]}
df_B = pd.DataFrame(data_B)
# 合并数据集A和数据集B
df_merged = pd.merge(df_A, df_B, on='学号', how='inner')
print(df_merged)

输出结果如下：

学号姓名成绩

0 001 张三 80

1 002 李四 90

2 003 王五 85

可以看到，合并操作将数据集A和数据集B按照学号进行匹配，并将匹配到的数据合并在一起。最终得到了一个包含了学生基本信息和成绩信息的完整数据集。

连接操作

连接操作是将两个数据集按照指定的列或索引进行连接，形成一个新的数据集。连接操作常用于将两个数据集按照某个共同的字段进行连接，以便进行更复杂的数据操作和分析。

下面是一个例子，假设我们有两个数据集A和B，分别包含了学生的基本信息和班级信息。我们可以使用连接操作将这两个数据集连接在一起，得到一个包含了学生基本信息和班级信息的完整数据集。

python
import pandas as pd
# 创建数据集A
data_A = {'学号': ['001', '002', '003', '004'],
          '姓名': ['张三', '李四', '王五', '赵六']}
df_A = pd.DataFrame(data_A)
# 创建数据集B
data_B = {'班级': ['一班', '二班', '三班', '四班'],
          '学号': ['001', '002', '003', '005']}
df_B = pd.DataFrame(data_B)
# 连接数据集A和数据集B
df_joined = pd.merge(df_A, df_B, on='学号', how='left')
print(df_joined)

输出结果如下：

学号姓名班级

0 001 张三一班

1 002 李四二班

2 003 王五三班

3 004 赵六 NaN

可以看到，连接操作将数据集A和数据集B按照学号进行连接，并将匹配到的数据连接在一起。如果某个学号在数据集B中不存在，则对应的班级信息为NaN。

连接操作

连接操作是将多个数据集按照指定的方式进行连接，形成一个新的数据集。连接操作常用于将多个数据集按照一定的规则连接在一起，以便进行更复杂的数据操作和分析。

下面是一个例子，假设我们有三个数据集A、B和C，分别包含了学生的基本信息、班级信息和成绩信息。我们可以使用连接操作将这三个数据集连接在一起，得到一个包含了学生基本信息、班级信息和成绩信息的完整数据集。

python
import pandas as pd
# 创建数据集A
data_A = {'学号': ['001', '002', '003', '004'],
          '姓名': ['张三', '李四', '王五', '赵六']}
df_A = pd.DataFrame(data_A)
# 创建数据集B
data_B = {'班级': ['一班', '二班', '三班', '四班'],
          '学号': ['001', '002', '003', '005']}
df_B = pd.DataFrame(data_B)
# 创建数据集C
data_C = {'学号': ['001', '002', '003', '004'],
          '成绩': [80, 90, 85, 95]}
df_C = pd.DataFrame(data_C)
# 连接数据集A、数据集B和数据集C
df_concatenated = pd.concat([df_A, df_B, df_C], axis=1)
print(df_concatenated)

输出结果如下：

学号姓名班级学号成绩

0 001 张三一班 001 80.0

1 002 李四二班 002 90.0

2 003 王五三班 003 85.0

3 004 赵六 NaN 004 95.0

可以看到，连接操作将数据集A、数据集B和数据集C按照指定的轴进行连接，并将匹配到的数据连接在一起。如果某个数据集中不存在相应的数据，则对应位置的值为NaN。

通过Pandas中的类似SQL的连接功能，我们可以轻松地在Python中处理和分析数据。合并、连接和连接操作使得数据的整合变得简单，为我们提供了更多处理数据的灵活性和便捷性。

以上是关于Pandas中类似SQL的连接功能的介绍和示例代码。通过学习这些操作，相信你已经掌握了如何在Python中使用Pandas进行数据集的合并、连接和连接操作。利用这些功能，你可以更加高效地处理和分析数据，为数据分析和挖掘提供强大的支持。

上一篇：PANDAS 中类似 SQL 的窗口函数：Python Pandas Dataframe 中的行编号下一篇：pandas 中类别缺失值的插补

=

Pandas：将 TimeGrouper 与另一个 Groupby 参数结合起来: 　　　　使用Pandas进行数据处理和分析时，经常需要对时间序列数据进行聚合。Pandas中的TimeGrouper函数可以帮助我们按照指定的时间段对数据进行分组。然而，有时候我们还需要使用其...... ...
Pandas：将 timedelta 列添加到日期时间列（矢量化）: 　　　　使用Pandas库对日期和时间进行操作是数据分析中常见的任务之一。在处理时间序列数据时，经常需要对日期和时间进行计算和处理。在Pandas中，可以使用timedelta对象来表示时间...... ...
Pandas：将 dtype 'object' 转换为 int: 　　　　Pandas是一个功能强大的Python库，用于数据分析和处理。在数据处理过程中，经常会遇到将dtype为'object'的数据转换为int类型的需求。本文将介绍如何使用Pandas来实现这一转...... ...
Pandas：将 DataFrame 与稀疏矩阵连接: 　　　　使用Pandas库中的DataFrame与稀疏矩阵进行连接是数据处理中常见的操作之一。Pandas是一个强大的数据分析工具，而稀疏矩阵则是一种优化存储空间的数据结构。本文将介绍如何使...... ...
Pandas：对给定列的 DataFrame 行求和: 　　　　Pandas：对给定列的 DataFrame 行求和在数据分析和处理中，经常需要对 DataFrame 中的某一列进行求和操作。Pandas 是一个强大的数据分析工具，它提供了丰富的功能来处理和操...... ...
Pandas：对数据帧进行采样[重复]: 　　　　如何使用Pandas对数据框进行采样Pandas是Python中一个强大的数据分析库，它提供了丰富的功能来处理和分析数据。其中之一是对数据框进行采样，即从数据框中随机选择一部分数...... ...
pandas：对于 df 中的每一行复制行 N 次，略有变化: 　　　　使用pandas对数据进行行复制和变化在数据分析和处理中，经常会遇到需要对数据进行复制和变化的情况。如果我们使用Python的pandas库，可以简单高效地完成这个任务。本文将介...... ...
Pandas：子索引数据帧：副本与视图: 　　　　Pandas：子索引数据帧：副本与视图在数据分析和处理过程中，使用Pandas库可以极大地简化任务。其中一个核心概念是数据帧（DataFrame），它是一种二维表格结构，类似于Excel...... ...
pandas：如果满足 3 列中的条件，则更新值: 　　　　使用Pandas库可以方便地对数据进行处理和分析。其中一个常见的需求是根据特定条件来更新数据框中的值。在本文中，我们将介绍如何使用Pandas来实现这一功能，并提供一个案例...... ...
Pandas：如果条件[重复]，则从另一列更新列值: 　　　　使用Pandas进行数据处理和分析是数据科学家和分析师们的常见任务之一。而在进行数据处理时，有时候需要根据某一列的条件来更新另一列的值。本文将介绍如何使用Pandas中的条...... ...
Pandas：如果字符串列表中不存在，则将字符串替换为“其他”: 　　　　Pandas：如果字符串列表中不存在，则将字符串替换为“其他”Pandas是一个强大的Python库，用于数据分析和处理。在数据处理过程中，经常会遇到需要对字符串进行替换的情况。...... ...
Pandas：如果单元格包含特定文本则删除行: 　　　　使用Pandas库进行数据处理时，我们经常会遇到需要删除特定行的情况。例如，我们可能需要根据某个单元格是否包含特定文本来删除整行数据。在本文中，我们将介绍如何使用Pand...... ...
Pandas：如果 A 列中的行包含“x”，则将“y”写入 B 列中的行: 　　　　使用Pandas库可以轻松地处理和操作数据集。在本文中，我们将介绍如何根据特定条件将数据从一列复制到另一列。具体来说，我们将在A列中查找包含特定值“x”的行，并将相应的...... ...
Pandas：如何通过保留第一个数据帧的信息来合并列上的两个数据帧: 　　　　如何使用Pandas保留第一个数据帧的信息来合并列上的两个数据帧在数据分析和数据处理的过程中，我们经常需要将两个数据帧进行合并。而在某些情况下，我们希望保留第一个数据...... ...
pandas：如何选择每个 GROUP BY 组中的第一行: 　　　　是一种流行的Python数据分析库，提供了丰富的数据处理和分析工具。在数据分析中，我们经常会遇到需要按照某个特征将数据分组，并选择每个组中的第一行的需求。本文将介绍如...... ...