Python Pandas DataFrame高效数据提取技巧121

Pandas是Python中用于数据分析的强大库，其核心数据结构DataFrame类似于表格，拥有行和列，方便进行数据操作。本文将深入探讨从Pandas DataFrame中高效提取数据的各种方法，涵盖基础到高级技巧，并结合代码示例，帮助读者快速掌握。

一、基础数据提取方法

最基本的数据提取方法是使用标签（标签名或索引）访问行和列。 `loc`属性用于基于标签名进行索引，`iloc`属性用于基于整数位置进行索引。两者都支持切片。

1. 使用 `loc` 访问数据：
import pandas as pd
data = {'col1': [1, 2, 3], 'col2': [4, 5, 6], 'col3': [7, 8, 9]}
df = (data)
# 获取特定列
print(df['col1']) # 输出col1列
# 获取特定行
print([0]) # 输出第一行
# 获取特定行列
print([0, 'col1']) # 输出第一行第一列的值
# 获取多个列
print([:, ['col1', 'col3']]) # 输出col1和col3列
# 获取多行多列
print([0:1, 'col1':'col2']) # 输出前两行，col1和col2列

2. 使用 `iloc` 访问数据：
import pandas as pd
data = {'col1': [1, 2, 3], 'col2': [4, 5, 6], 'col3': [7, 8, 9]}
df = (data)
# 获取特定列 (按列索引)
print([:, 0]) # 输出第一列
# 获取特定行 (按行索引)
print([1]) # 输出第二行
# 获取特定行列 (按行列索引)
print([1, 2]) # 输出第二行第三列的值
# 获取多行多列 (按行列索引)
print([0:2, 0:2]) # 输出前两行，前两列

二、条件筛选数据

使用布尔索引可以根据条件筛选数据。这通常结合逻辑运算符（例如 `&`，`|`，`~`）和比较运算符（例如 `>`, ` 2])
# 筛选col1大于2且col2小于9的行
print(df[(df['col1'] > 2) & (df['col2'] < 9)])
# 筛选col1等于3或col2等于10的行
print(df[(df['col1'] == 3) | (df['col2'] == 10)])
# 使用`query`方法进行筛选 (更易读)
print(('col1 > 2 and col2 < 9'))

三、高级数据提取技巧

除了基本方法外，Pandas还提供了一些高级函数，可以更方便地进行数据提取。

1. `at` 和 `iat` 属性： `at`和`iat`类似于`loc`和`iloc`，但它们一次只访问一个单一元素，速度更快。
import pandas as pd
data = {'col1': [1, 2, 3], 'col2': [4, 5, 6]}
df = (data)
print([1, 'col2']) # 输出第二行col2列的值
print([1, 1]) # 输出第二行第二列的值

2. `apply` 函数： `apply`函数允许你对DataFrame的行或列应用自定义函数。
import pandas as pd
data = {'col1': [1, 2, 3], 'col2': [4, 5, 6]}
df = (data)
# 将col1中的每个元素乘以2
df['col1_doubled'] = df['col1'].apply(lambda x: x * 2)
print(df)

3. `groupby` 函数和聚合函数： `groupby`函数可以对DataFrame进行分组，然后使用聚合函数（例如`sum`, `mean`, `max`, `min`）计算每组的统计量。
import pandas as pd
data = {'col1': ['A', 'A', 'B', 'B'], 'col2': [1, 2, 3, 4]}
df = (data)
# 对col1分组，计算col2的和
print(('col1')['col2'].sum())

4. `filter` 函数： `filter`函数允许你根据列名或索引选择列。
import pandas as pd
data = {'col1': [1, 2, 3], 'col2': [4, 5, 6], 'col3': [7, 8, 9]}
df = (data)
# 选择列名包含'col'的列
print((regex='col'))

四、性能优化建议

对于大型DataFrame，选择合适的数据提取方法至关重要，可以显著提高性能。避免使用循环遍历DataFrame，尽量利用Pandas提供的向量化操作。

总而言之，Pandas提供了丰富的函数和方法来进行DataFrame数据提取。选择最适合你的数据和需求的方法，可以大大提高数据分析效率。

2025-05-19

上一篇：Python数据按周聚合与分析：高效处理时间序列数据

下一篇：Pythonic 麦穗：从数据结构到算法实现