Python高效批量读取多个CSV文件：方法、技巧及性能优化76

在数据处理和分析领域，CSV (Comma Separated Values) 文件是一种非常常见的格式。经常会遇到需要处理多个CSV文件的情况，例如从多个传感器收集的数据、不同时间段的日志记录等等。单纯地循环读取每个文件效率低下，尤其当文件数量庞大或文件尺寸较大的时候。本文将介绍几种Python高效读取多个CSV文件的技巧和方法，并探讨如何进行性能优化。

方法一：使用循环和`csv`模块

这是最直接的方法，使用Python内置的`csv`模块逐个读取每个CSV文件。虽然简单，但效率较低，不适合处理大量文件。```python
import csv
import os
def read_csv_files_loop(directory):
"""
使用循环读取目录下所有CSV文件。
Args:
directory: CSV文件所在的目录。
Returns:
一个包含所有CSV文件数据的列表，每个元素是一个包含行数据的列表。
返回None如果目录不存在或没有CSV文件。
"""
if not (directory):
print(f"Error: Directory '{directory}' does not exist.")
return None
all_data = []
for filename in (directory):
if (".csv"):
filepath = (directory, filename)
try:
with open(filepath, 'r', encoding='utf-8') as file: # 注意编码问题
reader = (file)
#跳过表头，如果存在
next(reader, None)
(list(reader))
except Exception as e:
print(f"Error reading file {filepath}: {e}")
return None #处理错误，避免程序崩溃
return all_data
#示例用法
directory_path = "your_csv_directory" #替换成你的目录
data = read_csv_files_loop(directory_path)
if data:
print(data)
```

方法二：使用`glob`模块和`csv`模块

`glob`模块可以更方便地查找符合特定模式的文件，提高代码的可读性和效率。```python
import csv
import glob
def read_csv_files_glob(directory, pattern="*.csv"):
"""
使用glob模块读取目录下所有匹配模式的CSV文件。
Args:
directory: CSV文件所在的目录。
pattern: 文件名模式，默认为 "*.csv"。
Returns:
一个包含所有CSV文件数据的列表，每个元素是一个包含行数据的列表。
返回None如果目录不存在或没有匹配的文件。
"""
filepaths = ((directory, pattern))
if not filepaths:
print(f"Error: No CSV files found in '{directory}'.")
return None
all_data = []
for filepath in filepaths:
try:
with open(filepath, 'r', encoding='utf-8') as file:
reader = (file)
next(reader, None) #跳过表头
(list(reader))
except Exception as e:
print(f"Error reading file {filepath}: {e}")
return None
return all_data
#示例用法
directory_path = "your_csv_directory"
data = read_csv_files_glob(directory_path)
if data:
print(data)
```

方法三：使用`pandas`库

`pandas`库是数据分析的利器，其`concat`函数可以高效地合并多个CSV文件的数据。```python
import pandas as pd
import glob
import os
def read_csv_files_pandas(directory, pattern="*.csv"):
"""
使用pandas库读取目录下所有匹配模式的CSV文件。
Args:
directory: CSV文件所在的目录。
pattern: 文件名模式，默认为 "*.csv"。
Returns:
一个pandas DataFrame，包含所有CSV文件的数据。
返回None如果目录不存在或没有匹配的文件。
"""
try:
filepaths = ((directory, pattern))
if not filepaths:
print(f"Error: No CSV files found in '{directory}'.")
return None
all_dataframes = [pd.read_csv(filepath) for filepath in filepaths]
combined_df = (all_dataframes, ignore_index=True)
return combined_df
except Exception as e:
print(f"Error reading CSV files: {e}")
return None

#示例用法
directory_path = "your_csv_directory"
df = read_csv_files_pandas(directory_path)
if df is not None:
print(df)
```

性能优化建议

对于大量CSV文件，以下技巧可以显著提高读取速度：
使用`chunksize`参数： `pandas.read_csv()`支持`chunksize`参数，可以分块读取数据，减少内存占用，提高效率。特别适用于非常大的CSV文件。
多进程处理：对于文件数量非常多，可以利用Python的多进程库`multiprocessing`，将读取任务分配给多个进程并行执行。
选择合适的编码：正确指定文件的编码方式（例如`utf-8`或`latin-1`）非常重要，避免编码错误导致读取失败或速度下降。
使用更高效的库：对于特定需求，例如处理特定格式的CSV文件或进行特定类型的分析，可能存在更专门的库，效率更高。
数据预处理：在读取之前，对文件进行预处理，例如压缩文件解压，可以提升效率。

总结

本文介绍了三种使用Python读取多个CSV文件的方法，并提供了性能优化建议。选择哪种方法取决于文件的数量、大小以及具体的应用场景。 `pandas`库在处理大型数据集时通常具有更好的性能和更便捷的API，而对于简单的场景，使用`csv`模块循环读取也足够。记住要根据实际情况选择最合适的方案并进行性能优化，以确保代码的效率和稳定性。

2025-06-14

上一篇：高效Python文件索引器：构建、优化与应用

下一篇：Python代码高效迁移到Java：策略、技巧与常见问题