Python高效读取xlsx文件：方法、库与性能优化345

在数据分析和处理领域，Excel文件（特别是xlsx格式）是极其常见的数据来源。Python作为一门强大的脚本语言，提供了多种方法来读取xlsx文件，并对其进行后续操作。本文将深入探讨Python读取xlsx文件的各种方法，比较它们的优缺点，并提供性能优化技巧，帮助你选择最适合自己需求的方案。

最常用的方法是利用第三方库。目前，Python中最流行的两个xlsx文件读取库是openpyxl和xlrd（对于xls文件）。它们各有优劣，选择哪个库取决于你的具体需求和数据规模。

1. 使用openpyxl读取xlsx文件

openpyxl是一个功能强大的库，能够读取和写入xlsx文件，支持各种xlsx特性，例如样式、公式和图表。它比xlrd更加现代化，并且支持较新的xlsx文件格式。以下是一个使用openpyxl读取xlsx文件的示例：```python
from openpyxl import load_workbook
def read_xlsx_openpyxl(filepath):
"""
使用openpyxl读取xlsx文件。
Args:
filepath: xlsx文件的路径。
Returns:
一个字典，键为sheet名称，值为一个包含sheet数据的列表。
返回None如果文件不存在或读取失败。
"""
try:
workbook = load_workbook(filepath, data_only=True) # data_only=True读取单元格的值，而不是公式
data = {}
for sheet_name in :
sheet = workbook[sheet_name]
rows = []
for row in sheet.iter_rows():
row_data = [ for cell in row]
(row_data)
data[sheet_name] = rows
return data
except FileNotFoundError:
print(f"Error: File not found at {filepath}")
return None
except Exception as e:
print(f"Error reading file: {e}")
return None
# 示例用法
filepath = "" # 请替换成你的文件路径
data = read_xlsx_openpyxl(filepath)
if data:
for sheet_name, sheet_data in ():
print(f"Sheet: {sheet_name}")
for row in sheet_data:
print(row)
```

这段代码首先导入load_workbook函数，然后定义一个函数read_xlsx_openpyxl来读取xlsx文件。data_only=True参数确保读取的是单元格的值，而不是公式。函数遍历每个sheet，然后遍历每个sheet的每一行，将数据存储在一个字典中。最后，代码打印出读取的数据。

2. 使用xlrd读取xlsx文件 (适用于较旧的xlsx文件)

xlrd主要用于读取xls文件，虽然也可以读取部分xlsx文件，但其功能和对新版xlsx的支持不如openpyxl好。如果你需要处理较旧的xls文件，或者你的项目对性能要求极高且数据量巨大，xlrd可能是一个不错的选择。需要注意的是，`xlrd`不能写入xlsx文件。```python
import xlrd
def read_xlsx_xlrd(filepath):
"""
使用xlrd读取xlsx文件 (可能不支持所有xlsx特性)。
Args:
filepath: xlsx文件的路径。
Returns:
一个字典，键为sheet索引，值为一个包含sheet数据的列表。
返回None如果文件不存在或读取失败。
"""
try:
workbook = xlrd.open_workbook(filepath)
data = {}
for sheet_index in range():
sheet = workbook.sheet_by_index(sheet_index)
rows = []
for row_index in range():
(sheet.row_values(row_index))
data[sheet_index] = rows
return data
except FileNotFoundError:
print(f"Error: File not found at {filepath}")
return None
except Exception as e:
print(f"Error reading file: {e}")
return None
#示例用法 (与openpyxl类似，需要替换filepath)
```

3. 性能优化

对于大型xlsx文件，读取速度可能会成为瓶颈。以下是一些性能优化技巧：
只读取需要的sheet和行：不要读取整个文件，只读取你需要的sheet和行。可以使用openpyxl的worksheet.iter_rows(min_row=start_row, max_row=end_row)来指定读取的行范围。
使用生成器：使用生成器可以避免一次性加载所有数据到内存中，从而减少内存消耗和提高效率。例如，你可以将sheet.iter_rows()的结果传递给一个生成器函数。
使用多进程或多线程：对于包含多个sheet的大型文件，可以考虑使用多进程或多线程来并行读取不同的sheet。
选择合适的库： xlrd在某些情况下可能比openpyxl更快，特别是对于非常大的xls文件。

选择合适的库和优化技巧，可以显著提高Python读取xlsx文件的效率，为后续的数据分析和处理提供更好的基础。

记住替换代码中的 `""` 为你的实际文件路径。在运行代码之前，确保已经安装了必要的库：pip install openpyxl xlrd。

2025-04-12

上一篇：Python爬虫实战：高效获取网页源代码的多种方法

下一篇：Python数据探索：从数据清洗到可视化分析的完整指南