Python高效拆分大型CSV文件：方法、技巧及性能优化140

在数据处理过程中，经常会遇到大型CSV文件，其大小可能达到数百兆甚至数吉字节。直接处理如此庞大的文件会严重影响程序的性能，甚至导致内存溢出。因此，将大型CSV文件拆分成多个较小的文件进行处理，是一种非常有效且常用的策略。本文将详细介绍使用Python高效拆分CSV文件的方法，涵盖多种技术，并探讨如何优化性能，以应对不同场景下的需求。

方法一：基于行数拆分

这是最简单直接的一种方法，根据预设的行数将CSV文件分割成多个文件。这种方法适用于文件内容相对均匀的情况。以下代码展示了如何实现：```python
import csv
def split_csv_by_rows(input_file, output_prefix, rows_per_file):
"""
根据行数拆分CSV文件。
Args:
input_file: 输入CSV文件的路径。
output_prefix: 输出文件的名前缀。
rows_per_file: 每个输出文件包含的行数。
"""
with open(input_file, 'r', encoding='utf-8') as infile:
reader = (infile)
header = next(reader) # 获取表头
file_num = 1
row_count = 0
current_file = open(f"{output_prefix}_{file_num}.csv", 'w', newline='', encoding='utf-8')
writer = (current_file)
(header) # 写入表头到每个文件
for row in reader:
(row)
row_count += 1
if row_count >= rows_per_file:
()
file_num += 1
current_file = open(f"{output_prefix}_{file_num}.csv", 'w', newline='', encoding='utf-8')
writer = (current_file)
(header) #写入表头到每个文件
row_count = 0
()

# 示例用法
input_file = ""
output_prefix = "split_file"
rows_per_file = 10000
split_csv_by_rows(input_file, output_prefix, rows_per_file)
```

这段代码使用了`csv`模块，高效地读取和写入CSV数据。 `encoding='utf-8'` 指定了编码方式，避免编码错误。 `newline=''` 参数避免在Windows系统上出现空行。

方法二：基于大小拆分

如果CSV文件内容不均匀，基于行数的拆分可能导致文件大小差异较大。这时，基于大小的拆分更合适。以下代码演示了如何实现基于大小的拆分，并利用迭代器优化性能：```python
import csv
import os
def split_csv_by_size(input_file, output_prefix, file_size_mb):
"""
根据文件大小拆分CSV文件。
Args:
input_file: 输入CSV文件的路径。
output_prefix: 输出文件的名前缀。
file_size_mb: 每个输出文件的大小(MB)。
"""
file_size_bytes = file_size_mb * 1024 * 1024
with open(input_file, 'r', encoding='utf-8') as infile:
reader = (infile)
header = next(reader)
file_num = 1
current_file = open(f"{output_prefix}_{file_num}.csv", 'w', newline='', encoding='utf-8')
writer = (current_file)
(header)
current_file_size = 0
for row in reader:
row_bytes = sum(len(('utf-8')) for x in row) + len(b',') * (len(row) - 1) + len(b'') #估算行大小
if current_file_size + row_bytes > file_size_bytes:
()
file_num += 1
current_file = open(f"{output_prefix}_{file_num}.csv", 'w', newline='', encoding='utf-8')
writer = (current_file)
(header)
current_file_size = 0
(row)
current_file_size += row_bytes
()
# 示例用法
input_file = ""
output_prefix = "split_file_size"
file_size_mb = 50
split_csv_by_size(input_file, output_prefix, file_size_mb)
```

此代码通过估算每行大小来控制文件大小。需要注意的是，这只是一个近似值，实际大小可能略有差异。

方法三：利用`pandas`库

Pandas库提供强大的数据处理能力，可以更方便地处理CSV文件。以下代码展示了如何使用Pandas进行拆分：```python
import pandas as pd
import os
def split_csv_by_chunks(input_file, output_prefix, chunksize):
"""
使用pandas按块大小拆分csv文件
"""
for chunk in pd.read_csv(input_file, chunksize=chunksize):
file_num = len(((input_file))) # 查找现存文件数量, 避免文件名冲突
chunk.to_csv(f"{output_prefix}_{file_num}.csv", index=False)
# 示例用法
input_file = ""
output_prefix = "split_file_pandas"
chunksize = 10000
split_csv_by_chunks(input_file, output_prefix, chunksize)
```

Pandas的`read_csv`函数支持`chunksize`参数，可以逐块读取CSV文件，避免一次性加载所有数据到内存。这对于非常大的文件尤其有效。

性能优化建议

为了提高拆分效率，可以考虑以下优化策略：
使用生成器：将文件读取和写入操作改为生成器，可以减少内存占用。
多进程或多线程：对于特别大的文件，可以考虑使用多进程或多线程来并行处理，进一步提高效率。
选择合适的拆分方法：根据文件内容和大小选择合适的方法，例如，对于内容均匀的文件，基于行数的拆分效率更高；对于内容不均匀的文件，基于大小的拆分更合适。
使用更快的IO操作：如果文件存储在SSD上，可以显著提高IO速度。

选择哪种方法取决于文件的具体情况和性能要求。对于大多数情况，Pandas方法由于其简洁性和效率而被推荐，尤其是在处理大型文件时。然而，对于极端大的文件，需要考虑多进程处理以进一步优化性能。记住在实际应用中根据数据特点和系统资源选择最优方案。

2025-06-18

上一篇：在PHP中高效运行Python代码的多种方法及最佳实践

下一篇：Python高效处理大数据行情：策略、库和性能优化