Python Pandas数据行合并：技巧、实践与性能优化145

在数据处理与分析领域，将来自不同来源或具有不同结构的数据集进行有效整合是日常任务。Python的Pandas库凭借其强大的DataFrame结构和丰富的数据操作函数，成为了数据科学家和工程师的首选工具。本文将深入探讨Pandas中数据行合并的各种方法，包括垂直堆叠、水平连接，并分享进阶技巧、最佳实践及性能优化考量，帮助您高效、准确地完成数据整合。

一、垂直合并：使用`()`堆叠数据行

当我们需要将两个或多个结构相似（列名相同或部分相同）的DataFrame纵向堆叠起来，形成一个更长的数据集时，`()`函数是理想的选择。它通过沿着指定轴（默认为0，即行方向）连接对象来实现。

1. 基本用法

`()`接收一个DataFrame列表作为第一个参数。import pandas as pd
# 创建两个示例DataFrame
df1 = ({'A': [1, 2], 'B': [3, 4]})
df2 = ({'A': [5, 6], 'B': [7, 8]})
# 垂直合并df1和df2
result_concat = ([df1, df2])
print("基本垂直合并结果:", result_concat)

2. 关键参数

`axis`: 默认为`0`，表示沿行方向堆叠。设置为`1`则表示沿列方向连接。
`ignore_index`: 默认为`False`。如果设置为`True`，合并后的DataFrame将重新生成一个连续的默认索引，而不是保留原始DataFrame的索引，这在处理索引重复时非常有用。
`keys`: 接受一个列表，为每个原始DataFrame在结果中创建多级索引。这对于追踪数据来源非常方便。
`join`: 默认为`'outer'`。当DataFrame的列不完全一致时，`'outer'`会保留所有列并用`NaN`填充缺失值；`'inner'`则只保留所有DataFrame都存在的共同列。

# 示例：忽略索引并处理不同列
df3 = ({'A': [7, 8], 'C': [9, 10]})
result_ignore_index = ([df1, df3], ignore_index=True)
print("忽略索引的垂直合并结果 (包含不同列):", result_ignore_index)
result_keys = ([df1, df2], keys=['source1', 'source2'])
print("带有keys的垂直合并结果:", result_keys)

二、水平合并：使用`()`和`()`关联数据行

水平合并（也称为连接或关联）是根据一个或多个共同的键（列）将两个DataFrame组合起来，形成一个更宽的数据集。这类似于关系型数据库中的JOIN操作。

1. `()`：灵活强大的连接工具

`merge()`方法是Pandas中最常用且功能最全面的水平合并工具。

核心概念：连接类型 (`how`参数)
`how='inner'` (内连接): 只保留两个DataFrame中键都存在的行。
`how='left'` (左连接): 保留左DataFrame的所有行，匹配右DataFrame中键存在的行，右边不匹配的用`NaN`填充。
`how='right'` (右连接): 保留右DataFrame的所有行，匹配左DataFrame中键存在的行，左边不匹配的用`NaN`填充。
`how='outer'` (外连接): 保留两个DataFrame中所有键对应的行，不匹配的用`NaN`填充。

基本用法与关键参数
`on`: 指定用于连接的列名。如果左右DataFrame的连接列名相同，可以直接使用此参数。
`left_on`, `right_on`: 当左右DataFrame的连接列名不同时使用。
`suffixes`: 接受一个字符串元组，用于处理合并后出现同名列（非连接键）的情况，为这些列添加后缀以区分来源。

# 创建两个用于合并的DataFrame
df_orders = ({
'order_id': [1, 2, 3, 4],
'customer_id': [101, 102, 101, 104],
'amount': [100, 150, 200, 50]
})
df_customers = ({
'customer_id': [101, 102, 103],
'name': ['Alice', 'Bob', 'Charlie'],
'city': ['NY', 'LA', 'SF']
})
# 内连接：只保留有共同客户的订单
merged_inner = (df_orders, df_customers, on='customer_id', how='inner')
print("内连接结果:", merged_inner)
# 左连接：保留所有订单，匹配客户信息
merged_left = (df_orders, df_customers, on='customer_id', how='left')
print("左连接结果:", merged_left)
# 外连接：保留所有订单和所有客户信息
merged_outer = (df_orders, df_customers, on='customer_id', how='outer')
print("外连接结果:", merged_outer)
# 处理同名列（假设df_orders也有一个'name'列）
df_orders_v2 = ({
'order_id': [1, 2], 'customer_id': [101, 102], 'name': ['Order1', 'Order2']
})
merged_suffixes = (df_orders_v2, df_customers, on='customer_id', how='inner', suffixes=('_order', '_customer'))
print("带suffixes的合并结果:", merged_suffixes)

2. `()`：基于索引的快捷方式

`join()`方法是`merge()`的一个简化版本，默认在DataFrame的索引上进行连接。如果需要基于列进行连接，可以通过`on`参数指定左DataFrame的列，然后与右DataFrame的索引进行连接。# 基于索引连接
df_index1 = ({'value1': [10, 20]}, index=['A', 'B'])
df_index2 = ({'value2': [30, 40]}, index=['B', 'C'])
joined_df = (df_index2, how='outer')
print("基于索引的join结果:", joined_df)

虽然`join()`提供了便利，但`merge()`通常更为灵活和推荐，尤其是在涉及非索引列的复杂连接场景。

三、进阶技巧与性能优化

1. 处理重复键

在`merge()`操作中，如果连接键在任一DataFrame中存在重复，可能会导致结果行数超出预期。`merge()`的`validate`参数可以在合并前检查键的唯一性：
`'one_to_one'`: 检查左右DataFrame的连接键是否都唯一。
`'one_to_many'`: 检查左DataFrame的连接键是否唯一。
`'many_to_one'`: 检查右DataFrame的连接键是否唯一。

如果检查失败，会抛出`MergeError`。# 示例：处理重复键
df_left_dup = ({'key': [1, 1, 2], 'L_val': ['a', 'b', 'c']})
df_right_unique = ({'key': [1, 2], 'R_val': ['x', 'y']})
try:
# 尝试进行one-to-one验证，会失败
(df_left_dup, df_right_unique, on='key', validate='one_to_one')
except Exception as e:
print(f"重复键导致验证失败: {e}")
# 正确处理：many-to-one或不指定validate
merged_validated = (df_left_dup, df_right_unique, on='key', validate='many_to_one')
print("使用many_to_one验证的合并结果:", merged_validated)

2. 性能优化

数据类型一致性： 确保用于连接的列（如`on`, `left_on`, `right_on`指定的列）具有相同的数据类型。不同数据类型之间的比较会显著降低合并速度。
选择合适的连接类型： `inner`连接通常比`outer`连接更快，因为它处理的数据量更少。如果只需要交集部分，优先考虑内连接。
索引优化： 如果是基于索引进行`join`或`merge`，确保相关列已设置为DataFrame的索引，或者使用`set_index()`预处理。Pandas在索引上进行操作效率更高。
分块处理： 对于超大型数据集，可以考虑将数据分块读取和合并，然后将结果再进行`concat`。
清除不需要的列： 在合并前移除不必要的列，可以减少内存消耗和处理时间。