Python CSV数据分割：高效处理大型CSV文件的实用技巧351

在数据处理领域，CSV (Comma Separated Values) 文件是一种常见的格式，用于存储表格数据。然而，当处理大型CSV文件时，直接加载到内存可能会导致内存溢出错误。因此，需要高效的分割策略来处理这些大型文件。本文将详细介绍使用Python处理大型CSV文件分割的多种方法，并分析其优缺点，帮助你选择最适合你场景的方案。

1. 使用`csv`模块逐行读取

这是处理大型CSV文件最常用的方法，因为它避免了将整个文件一次性加载到内存。通过``对象，我们可以逐行读取CSV文件，并对每一行进行处理。这种方法适用于需要对数据进行逐行操作或筛选的情况。```python
import csv
def process_csv_line_by_line(filepath, output_dir, chunk_size=1000):
"""
逐行读取CSV文件并将其分割成多个较小的CSV文件。
Args:
filepath: 输入CSV文件的路径。
output_dir: 输出CSV文件的目录。
chunk_size: 每个输出CSV文件包含的行数。
"""
chunk_num = 0
with open(filepath, 'r', encoding='utf-8') as csvfile:
reader = (csvfile)
header = next(reader) # 获取表头
current_chunk = []
for i, row in enumerate(reader):
(row)
if (i + 1) % chunk_size == 0:
chunk_num += 1
output_filepath = f"{output_dir}/chunk_{chunk_num}.csv"
with open(output_filepath, 'w', newline='', encoding='utf-8') as outfile:
writer = (outfile)
(header)
(current_chunk)
current_chunk = []
# 处理剩余的行
if current_chunk:
chunk_num += 1
output_filepath = f"{output_dir}/chunk_{chunk_num}.csv"
with open(output_filepath, 'w', newline='', encoding='utf-8') as outfile:
writer = (outfile)
(header)
(current_chunk)

#示例用法
filepath = ''
output_dir = 'output_chunks'
import os
if not (output_dir):
(output_dir)
process_csv_line_by_line(filepath, output_dir, chunk_size=1000)
```

2. 使用`pandas`库分块读取

Pandas库提供了`read_csv`函数，支持`chunksize`参数，可以将大型CSV文件分块读取到内存中。这种方法效率高，并且可以方便地利用pandas强大的数据处理功能。```python
import pandas as pd
import os
def process_csv_with_pandas(filepath, output_dir, chunk_size=10000):
"""
使用pandas分块读取CSV文件并将其分割成多个较小的CSV文件。
"""
chunk_num = 0
for chunk in pd.read_csv(filepath, chunksize=chunk_size):
chunk_num += 1
output_filepath = f"{output_dir}/chunk_{chunk_num}.csv"
chunk.to_csv(output_filepath, index=False)
#示例用法
filepath = ''
output_dir = 'output_chunks_pandas'
if not (output_dir):
(output_dir)
process_csv_with_pandas(filepath, output_dir, chunk_size=10000)
```

3. 基于文件大小分割

如果你的分割需求是基于文件大小而不是行数，则需要计算出每个块的大小，然后读取相应数量的字节。这种方法需要处理字节流和换行符，相对复杂。```python
import os
def split_by_size(filepath, output_dir, chunk_size_bytes=1024*1024*10): #10MB per chunk
"""Splits a file into chunks based on size."""
chunk_num = 0
with open(filepath, 'rb') as f:
while True:
chunk = (chunk_size_bytes)
if not chunk:
break
chunk_num += 1
output_filepath = (output_dir, f"chunk_{chunk_num}.csv")
with open(output_filepath, 'wb') as outfile:
(chunk)

#示例用法 (注意：此方法不保证每块都是完整的行)
filepath = ''
output_dir = 'output_chunks_size'
if not (output_dir):
(output_dir)
split_by_size(filepath, output_dir)
```