Python高效查询与处理表格数据：从Excel到CSV的实战指南89

在当今数据驱动的世界中，表格数据无处不在，无论是存储在Excel电子表格、CSV文件，还是关系型数据库中，它们都是业务分析、科学研究和日常工作的基础。作为一名专业的程序员，我们经常需要从这些海量数据中提取有价值的信息。Python凭借其强大的数据处理库生态系统，成为了处理和查询表格数据的首选工具。

本文将深入探讨如何使用Python高效地查询和处理各种表格数据，重点介绍两种最常用的场景：处理Excel文件和CSV文件。我们将详细讲解Pandas这一核心库的功能，并辅以openpyxl等辅助库，帮助您驾驭从简单筛选到复杂聚合的各种数据查询任务。

一、为什么选择Python进行表格数据查询？

传统的表格数据查询方式，如在Excel中使用筛选、排序、公式，或在数据库中使用SQL语句，虽然各有优势，但在面对以下场景时，Python的优势尤为突出：
自动化与批处理： 当需要重复执行相同的查询或处理流程时，Python脚本可以实现完全自动化，避免手动操作的繁琐和错误。
大数据量处理： Excel等工具在处理百万行以上数据时可能会变得缓慢甚至崩溃，Python的Pandas库能够高效处理远超此规模的数据。
复杂逻辑查询： 当查询条件涉及多层嵌套逻辑、自定义函数或与其他数据源的结合时，Python提供了无与伦比的灵活性。
集成与扩展： Python可以轻松与其他库（如Matplotlib、Seaborn用于数据可视化，Scikit-learn用于机器学习）集成，实现端到端的数据分析流程。
可复用性与协作： Python代码可以版本控制、轻松分享，便于团队协作和知识积累。

二、核心工具：Pandas库入门

Pandas是Python中用于数据操作和分析的“瑞士军刀”。它的核心数据结构是DataFrame，一个带标签的二维数组，可以看作是带有行和列标签的电子表格或SQL表。

2.1 安装Pandas

在开始之前，请确保您的环境中已安装Pandas：pip install pandas openpyxl xlrd

其中，`openpyxl`和`xlrd`是Pandas读取Excel文件时可能需要的引擎。`openpyxl`用于新的.xlsx格式，`xlrd`用于旧的.xls格式。

2.2 加载表格数据

Pandas提供了方便的函数来从各种来源加载数据。最常见的是CSV和Excel文件。

2.2.1 加载CSV文件

假设我们有一个名为``的文件：import pandas as pd
# 从CSV文件加载数据
df_csv = pd.read_csv('')
print("CSV文件加载成功，前5行数据：")
print(()) # 查看前5行数据

2.2.2 加载Excel文件

假设我们有一个名为``的Excel文件，其中包含多个工作表（sheets）。# 从Excel文件加载数据
# 如果Excel文件只有一个工作表，直接加载
df_excel = pd.read_excel('')
print("Excel文件加载成功，前5行数据：")
print(())
# 如果Excel文件有多个工作表，可以指定sheet_name
# 可以是工作表名称（字符串）或索引（整数，从0开始）
df_sheet2 = pd.read_excel('', sheet_name='Q2_Sales')
print("Excel 'Q2_Sales'工作表加载成功，前5行数据：")
print(())
# 加载所有工作表到一个字典中
all_sheets = pd.read_excel('', sheet_name=None)
print("所有工作表加载成功，字典中的键：")
print(()) # 打印所有工作表的名称

2.3 数据概览与基本信息

加载数据后，通常需要快速了解其结构和内容。print("数据框信息：")
() # 查看数据类型、非空值数量、内存使用等
print("数据框统计描述：")
print(()) # 查看数值列的统计摘要（均值、标准差、最大最小值等）
print("数据框形状 (行数, 列数)：")
print()
print("数据框所有列名：")
print()

三、Pandas核心查询技巧

Pandas提供了丰富的数据查询和筛选方法，这里我们将介绍最常用和最强大的几种。

3.1 列的选择

可以像访问字典一样选择单列或多列。# 选择单列
product_column = df_csv['Product']
print("'Product' 列数据：")
print(())
# 选择多列
selected_columns = df_csv[['Product', 'Sales', 'Region']]
print("'Product', 'Sales', 'Region' 列数据：")
print(())

3.2 行的筛选（布尔索引）

这是Pandas中最强大和常用的筛选方法之一，通过一个布尔（True/False）序列来选择行。# 筛选 'Sales' 大于 1000 的所有行
high_sales = df_csv[df_csv['Sales'] > 1000]
print("销售额大于1000的记录：")
print(())
# 筛选 'Region' 为 'East' 的所有行
east_region_sales = df_csv[df_csv['Region'] == 'East']
print("'East' 区域的销售记录：")
print(())
# 组合多个条件 (使用 & 表示AND, | 表示OR)
# 筛选 'Region' 为 'East' 且 'Sales' 大于 1500 的记录
east_high_sales = df_csv[(df_csv['Region'] == 'East') & (df_csv['Sales'] > 1500)]
print("'East' 区域且销售额大于1500的记录：")
print(())
# 使用 isin() 方法筛选多个值
# 筛选 'Product' 为 'Laptop' 或 'Smartphone' 的记录
tech_products = df_csv[df_csv['Product'].isin(['Laptop', 'Smartphone'])]
print("'Laptop' 或 'Smartphone' 的销售记录：")
print(())
# 筛选包含特定字符串的行 (使用 .())
# 筛选 'Product' 名称中包含 'Book' 的产品
book_products = df_csv[df_csv['Product'].('Book', case=False, na=False)]
print("名称中包含 'Book' 的产品：")
print(())

3.3 使用 `loc` 和 `iloc` 进行标签/位置筛选

`loc` 用于基于行标签和列标签进行选择，而 `iloc` 用于基于行位置和列位置（整数索引）进行选择。# 假设 df_csv 的索引是默认的整数索引 0, 1, 2...
# 使用 loc 筛选特定行和列 (基于标签)
# 选择索引为 0, 1, 2 的行的 'Product' 和 'Sales' 列
specific_rows_cols_loc = [[0, 1, 2], ['Product', 'Sales']]
print("使用 loc 筛选索引 0, 1, 2 的 'Product', 'Sales' 列：")
print(specific_rows_cols_loc)
# 使用 loc 结合布尔条件
# 选择 'Region' 为 'West' 的所有行的 'Product', 'Sales', 'Date' 列
west_region_data_loc = [df_csv['Region'] == 'West', ['Product', 'Sales', 'Date']]
print("使用 loc 结合布尔条件筛选 'West' 区域：")
print(())
# 使用 iloc 筛选特定行和列 (基于位置)
# 选择第 0 到 4 行 (不包含第5行) 和第 0, 2 列
specific_rows_cols_iloc = [0:5, [0, 2]]
print("使用 iloc 筛选前5行和第0, 2列：")
print(specific_rows_cols_iloc)
# 选择所有行，但只选择第 1 到 3 列
all_rows_specific_cols_iloc = [:, 1:4]
print("使用 iloc 筛选所有行和第1到3列：")
print(())

3.4 使用 `query()` 方法

`query()` 方法提供了一种更接近SQL语法的字符串表达式来筛选数据，对于复杂的条件有时会更简洁。# 使用 query() 方法筛选 'Sales' 大于 1000 且 'Region' 不等于 'South' 的记录
query_result = ('Sales > 1000 and Region != "South"')
print("使用 query() 筛选销售额大于1000且区域不为'South'的记录：")
print(())
# query() 也支持变量
min_sales_threshold = 1200
query_with_variable = ('Sales > @min_sales_threshold')
print(f"使用 query() 筛选销售额大于 {min_sales_threshold} 的记录：")
print(())

3.5 数据排序

使用 `sort_values()` 方法可以根据一列或多列对数据进行排序。# 按 'Sales' 列降序排序
sorted_by_sales_desc = df_csv.sort_values(by='Sales', ascending=False)
print("按销售额降序排序：")
print(())
# 先按 'Region' 升序，再按 'Sales' 降序排序
sorted_multi_cols = df_csv.sort_values(by=['Region', 'Sales'], ascending=[True, False])
print("按区域升序再按销售额降序排序：")
print(())

3.6 数据聚合与分组（Groupby）

`groupby()` 是Pandas中最强大的功能之一，用于按一个或多个列对数据进行分组，然后对每个组执行聚合操作（如求和、平均值、计数等）。# 计算每个 'Region' 的总销售额
sales_by_region = ('Region')['Sales'].sum()
print("按区域分组计算总销售额：")
print(sales_by_region)
# 计算每个 'Product' 的平均销售额和销售数量
product_summary = ('Product').agg(
Average_Sales=('Sales', 'mean'),
Total_Quantity=('Quantity', 'sum')
)
print("按产品分组计算平均销售额和总数量：")
print(product_summary)
# 按多个列分组
sales_by_region_product = (['Region', 'Product'])['Sales'].sum()
print("按区域和产品分组计算总销售额：")
print(())

四、使用Openpyxl直接操作Excel文件

虽然Pandas是处理表格数据的主力，但在某些特定场景下，例如需要精确控制Excel单元格的格式、样式，或者处理一个非常庞大以至于不希望完全加载到内存中的Excel文件时，`openpyxl`库可以直接操作.xlsx文件，提供了更底层的控制。

请注意，`openpyxl`更侧重于单元格级别的读写和格式化，而非大规模的数据分析和查询。如果您的主要任务是数据分析，Pandas是更好的选择。但如果您需要进行以下操作，`openpyxl`非常有用：
创建新的Excel工作簿和工作表。
精确写入特定单元格。
读取或修改单元格的格式、颜色、字体等。
处理非常大的Excel文件，通过迭代器逐行读取，避免内存溢出。

4.1 基本读写操作

from openpyxl import load_workbook, Workbook
# 假设存在
# 1. 加载现有工作簿
try:
wb = load_workbook('')
print("成功加载 ")
# 2. 选择一个工作表
sheet = # 获取当前活动的工作表
# 或者通过名称选择：sheet = wb['Q2_Sales']
print(f"当前活动工作表名称：{}")
# 3. 读取单元格数据
cell_a1_value = sheet['A1'].value
print(f"A1 单元格的值：{cell_a1_value}")
# 4. 遍历行和列
print("遍历前3行数据：")
for row_idx, row in enumerate(sheet.iter_rows(min_row=1, max_row=3, min_col=1, max_col=sheet.max_column)):
row_values = [ for cell in row]
print(f"第 {row_idx+1} 行: {row_values}")
# 5. 读取所有数据并转换为列表的列表
all_data = []
for row in sheet.iter_rows(values_only=True): # values_only=True 直接返回单元格的值
(row)
print("所有数据（转换为列表的列表，前5行）：")
for i in range(min(5, len(all_data))):
print(all_data[i])
# 6. 简单的查询（需要手动编写Python逻辑）
# 假设我们要查找所有销售额大于1500的产品
print("通过 openpyxl 查找销售额大于1500的产品 (手动逻辑)：")
header = [ for cell in sheet[1]] # 获取标题行
try:
product_col_idx = ('Product')
sales_col_idx = ('Sales')
except ValueError:
print("Excel文件中未找到 'Product' 或 'Sales' 列。")
product_col_idx, sales_col_idx = -1, -1 # 设置为无效索引
if product_col_idx != -1 and sales_col_idx != -1:
for row in sheet.iter_rows(min_row=2): # 从第二行开始遍历数据
product = row[product_col_idx].value
sales = row[sales_col_idx].value
if isinstance(sales, (int, float)) and sales > 1500:
print(f"产品: {product}, 销售额: {sales}")
else:
print("无法执行查询，缺少必要的列。")

# 7. 写入数据 (创建一个新工作簿演示)
new_wb = Workbook()
new_ws =
= "Filtered Data"
# 写入标题
(header)
# 写入筛选后的数据
for row in sheet.iter_rows(min_row=2):
sales_value = row[sales_col_idx].value if sales_col_idx != -1 else None
if isinstance(sales_value, (int, float)) and sales_value > 1500:
row_values = [ for cell in row]
(row_values)
('')
print("筛选后的数据已保存到 ")
except FileNotFoundError:
print("错误：'' 文件未找到。请确保文件存在于脚本相同目录下。")
except Exception as e:
print(f"发生错误：{e}")

从上面的例子可以看出，使用`openpyxl`进行数据查询需要编写更多的手动循环和条件判断逻辑，这正是Pandas的强大之处——它将这些常用操作封装成简洁的方法，大大提高了开发效率。

五、性能考量与最佳实践

在处理大型数据集时，性能是一个重要考虑因素。
优先使用Pandas： 对于数据分析和复杂的查询任务，Pandas通常是最高效的选择，因为它底层使用了优化的C代码。
避免在循环中对DataFrame进行操作： 尽量使用Pandas的内置方法（如 `apply()`, `map()`, `vectorized operations`），而非Python的for循环来遍历DataFrame的行，这会显著提升性能。
数据类型优化： 确保Pandas DataFrame中的列具有合适的数据类型（例如，使用`int64`代替`object`存储整数），可以减少内存占用并加速计算。
分块读取： 对于超大型文件，可以使用`pd.read_csv(..., chunksize=N)` 或 `pd.read_excel(..., chunksize=N)` 来分块读取数据，逐块处理，避免一次性加载所有数据到内存。
创建索引： 对于频繁进行查找和合并的列，可以考虑在Pandas DataFrame上创建索引，这有助于加速这些操作。
内存管理： 及时删除不再需要的大型DataFrame，使用`del df`和`()`。

六、总结与展望

Python凭借其强大的Pandas库，已经成为处理和查询表格数据的行业标准工具。无论是简单的CSV文件，还是复杂的Excel多工作表，Python都能提供高效、灵活且可自动化的解决方案。

通过本文的学习，您应该已经掌握了：
如何使用Pandas加载和初步探索CSV及Excel数据。
各种强大的数据查询技巧，包括列选择、行筛选（布尔索引、`loc`/`iloc`、`query()`）。
如何对数据进行排序、聚合和分组。
在特定场景下，如何使用`openpyxl`直接操作Excel文件。

数据查询只是数据分析旅程的第一步。一旦您能够熟练地提取和筛选所需数据，就可以进一步利用Python生态系统中的其他工具，如Matplotlib和Seaborn进行数据可视化，Scikit-learn进行机器学习模型的构建，从而从您的表格数据中挖掘出更深层次的洞察。不断实践和探索，您将成为一位真正的数据处理专家！

2026-04-13

下一篇：Python Turtle绘制可爱小猪：从零开始的代码艺术之旅