Python Pandas：高效筛选数据框指定列214

在数据分析和处理过程中，我们经常需要从庞大的数据框中提取出感兴趣的几列数据。Python的Pandas库提供了多种高效的方法来实现这一目标，本文将详细介绍几种常用的技术，并结合实际案例进行讲解，帮助你快速掌握如何从Pandas数据框中保留指定列的数据。

Pandas是一个强大的数据分析库，其核心数据结构是DataFrame，类似于Excel表格。一个DataFrame包含多个列（columns），每一列代表一个变量，每一行代表一个观测值。当处理大型数据集时，只保留需要的列可以显著提高处理效率，减少内存消耗，并简化后续分析。

方法一：使用列名进行索引

这是最直接、最常用的方法。我们可以使用方括号`[]`，传入一个包含所需列名列表的列表或元组，来选择指定的列。这种方法简洁高效，易于理解和使用。```python
import pandas as pd
# 创建一个示例数据框
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 22, 28],
'City': ['New York', 'London', 'Paris', 'Tokyo'],
'Salary': [60000, 70000, 55000, 80000]}
df = (data)
# 选择'Name'和'Age'两列
selected_columns = ['Name', 'Age']
df_selected = df[selected_columns]
print(df_selected)
# 使用元组选择列
df_selected_tuple = df[('Name', 'Age')]
print(df_selected_tuple)
#选择多个不相邻的列
df_selected_multiple = df[['Name','Salary']]
print(df_selected_multiple)
```

这段代码首先创建了一个包含四列数据的DataFrame。然后，我们使用一个列表`selected_columns`指定需要保留的列名'Name'和'Age'。最后，通过`df[selected_columns]`选择指定的列，并将其赋值给新的DataFrame `df_selected`。同样，我们也演示了使用元组和选择多个不相邻的列的方法。

方法二：使用`loc`索引器

Pandas的`loc`索引器可以根据标签（列名和行索引）选择数据。它比直接使用方括号更加灵活，可以进行更复杂的选择操作。 `loc` 适用于标签索引，如果你的索引不是默认的数字索引，`loc` 是更好的选择。```python
import pandas as pd
# 创建一个示例数据框
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 22, 28],
'City': ['New York', 'London', 'Paris', 'Tokyo'],
'Salary': [60000, 70000, 55000, 80000]}
df = (data)

# 选择'Name'和'Age'两列
df_selected_loc = [:, ['Name', 'Age']] # : 表示选择所有行
print(df_selected_loc)
```

这段代码中，`:` 表示选择所有行，`['Name', 'Age']` 指定选择'Name'和'Age'两列。`loc`索引器在处理行和列选择时更加清晰易懂，尤其是在处理复杂的条件选择时。

方法三：使用布尔索引

我们可以使用布尔索引来选择符合特定条件的列。例如，我们可以选择所有以特定字符串开头的列。```python
import pandas as pd
# 创建一个示例数据框
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 22, 28],
'City': ['New York', 'London', 'Paris', 'Tokyo'],
'Salary': [60000, 70000, 55000, 80000]}
df = (data)
# 选择所有以'N'开头的列名
columns_to_select = [col for col in if ('N')]
df_selected_bool = df[columns_to_select]
print(df_selected_bool)
```

这段代码利用列表推导式，筛选出列名以'N'开头的列，然后选择这些列。

方法四：使用`filter`方法

Pandas的`filter`方法可以根据列名模式选择列。它提供了更灵活的列选择方式，例如正则表达式匹配。```python
import pandas as pd
import re
# 创建一个示例数据框
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 22, 28],
'City': ['New York', 'London', 'Paris', 'Tokyo'],
'Salary': [60000, 70000, 55000, 80000],
'New_City': ['Beijing','Shanghai','Shenzhen','Guangzhou']}
df = (data)
# 使用正则表达式选择列名包含'City'的列
df_selected_filter = (regex='City')
print(df_selected_filter)
#使用items选择列
df_selected_items = (items=['Name', 'Age'])
print(df_selected_items)
```

这段代码使用正则表达式`City`选择包含'City'的列名。`filter`方法结合正则表达式提供了强大的列选择能力。

总结：本文介绍了四种从Pandas数据框中保留指定列的方法：直接使用列名索引、使用`loc`索引器、使用布尔索引和使用`filter`方法。选择哪种方法取决于具体的需求和数据的特点。希望本文能够帮助你更好地理解和应用这些方法，提高数据处理效率。

2025-05-21

上一篇：Python代码文件存储与管理：最佳实践与高级技巧

下一篇：Python字符串反转的多种方法及性能比较