Python高效读取XLS/XLSX文件数据：方法、库及性能比较41

在数据分析和处理领域，Excel文件 (.xls, .xlsx) 仍然是广泛使用的格式。Python作为一门强大的脚本语言，提供了多种方法来读取这些文件中的数据。本文将深入探讨几种常用的Python库，比较它们的性能和适用场景，并提供详细的代码示例，帮助你高效地从XLS/XLSX文件中提取数据。

1. `openpyxl` 库：处理XLSX文件的利器

对于较新的XLSX文件（基于XML），`openpyxl` 是一个优秀的库。它提供了丰富的功能，能够读取和写入工作簿、工作表、单元格，以及处理各种单元格格式和样式。 `openpyxl` 的优点在于其功能全面且易于使用，特别是处理复杂XLSX文件时优势明显。

以下是一个使用 `openpyxl` 读取XLSX文件数据的示例：```python
from openpyxl import load_workbook
def read_xlsx_with_openpyxl(filepath):
"""
使用openpyxl读取XLSX文件数据。
Args:
filepath: XLSX文件的路径。
Returns:
一个包含所有工作表数据的字典，键为工作表名称，值为一个包含行数据的列表。
返回None如果文件不存在或打开失败。
"""
try:
workbook = load_workbook(filepath, data_only=True) # data_only=True 读取的是计算后的值，而非公式
data = {}
for sheet_name in :
sheet = workbook[sheet_name]
rows = []
for row in sheet.iter_rows():
row_data = [ for cell in row]
(row_data)
data[sheet_name] = rows
return data
except FileNotFoundError:
print(f"Error: File not found at {filepath}")
return None
except Exception as e:
print(f"Error reading file: {e}")
return None
# 示例用法
filepath = ''
data = read_xlsx_with_openpyxl(filepath)
if data:
for sheet_name, sheet_data in ():
print(f"Sheet: {sheet_name}")
for row in sheet_data:
print(row)
```

2. `xlrd` 和 `xlwt` 库：处理XLS文件的经典选择

对于较旧的XLS文件（基于BIFF），`xlrd` 库是读取数据的首选。它是一个功能强大的库，能够处理各种XLS文件，包括复杂的格式和公式。`xlwt` 则是其对应的写入库，可以用来创建新的XLS文件或修改已有的XLS文件。

需要注意的是，`xlrd` 和 `xlwt` 并不支持XLSX文件。

以下是一个使用 `xlrd` 读取XLS文件数据的示例：```python
import xlrd
def read_xls_with_xlrd(filepath):
"""
使用xlrd读取XLS文件数据。
Args:
filepath: XLS文件的路径。
Returns:
一个包含所有工作表数据的字典，键为工作表名称，值为一个包含行数据的列表。
返回None如果文件不存在或打开失败。
"""
try:
workbook = xlrd.open_workbook(filepath)
data = {}
for sheet_name in workbook.sheet_names():
sheet = workbook.sheet_by_name(sheet_name)
rows = []
for row_index in range():
row_data = sheet.row_values(row_index)
(row_data)
data[sheet_name] = rows
return data
except FileNotFoundError:
print(f"Error: File not found at {filepath}")
return None
except Exception as e:
print(f"Error reading file: {e}")
return None
# 示例用法
filepath = ''
data = read_xls_with_xlrd(filepath)
if data:
for sheet_name, sheet_data in ():
print(f"Sheet: {sheet_name}")
for row in sheet_data:
print(row)
```

3. `pandas` 库：数据分析利器，简化数据读取

`pandas` 是一个强大的数据分析库，它提供了 `read_excel()` 函数，可以轻松读取XLS和XLSX文件。`pandas` 将数据读取到DataFrame中，方便进行后续的数据处理和分析。 `pandas` 利用底层库（通常是 `openpyxl` 或 `xlrd`），并提供更高级的接口，使其成为处理表格数据的首选。```python
import pandas as pd
def read_excel_with_pandas(filepath):
"""
使用pandas读取Excel文件数据。
Args:
filepath: Excel文件的路径。
Returns:
一个pandas DataFrame对象，包含Excel文件的数据。
返回None如果文件不存在或打开失败。
"""
try:
df = pd.read_excel(filepath, engine='openpyxl') # 指定引擎，避免兼容性问题
return df
except FileNotFoundError:
print(f"Error: File not found at {filepath}")
return None
except Exception as e:
print(f"Error reading file: {e}")
return None
# 示例用法
filepath = '' # or ''
df = read_excel_with_pandas(filepath)
if df is not None:
print(df)
```

4. 性能比较和选择建议

对于大型文件，`pandas` 通常效率最高，因为它利用了底层库的优化。`openpyxl` 在处理XLSX文件方面表现出色，而`xlrd` 则专长于XLS文件。选择合适的库取决于你的文件类型和数据量。如果只需要简单的读取操作且文件不大，`xlrd`/`openpyxl` 足够；如果需要进行大量数据处理和分析，`pandas` 是更好的选择。

5. 错误处理和异常处理

上述代码示例中都包含了错误处理，以确保程序在遇到文件不存在或读取失败等错误时能够优雅地退出，并打印出相应的错误信息，方便调试。

6. 安装库

你可以使用pip安装这些库： `pip install openpyxl xlrd xlwt pandas`

总而言之，Python 提供了多种强大的工具来处理Excel文件。选择合适的库并结合良好的错误处理，可以让你高效地完成数据读取和处理任务。

2025-05-27

上一篇：Python中的覆盖函数：详解方法重写与多态

下一篇：Python高效搜索指定文件：方法详解与性能优化