Python 高效读取数组文件：从文本到二进制的全面指南234

在数据科学、机器学习、科学计算以及各种数据处理任务中，Python 已经成为不可或缺的工具。面对海量的数组数据，无论是简单的数值列表、多维矩阵还是复杂的科学数据集，高效地从文件中读取这些数据是所有后续操作的基础。本文将作为一份专业的指南，深入探讨 Python 读取各种数组文件的方法，从常见的文本格式到高性能的二进制格式，帮助您选择最适合的工具和策略。

“数组文件”是一个广义的概念，它可能指代包含数值数组的纯文本文件（如 CSV、TSV、空格分隔文件）、NumPy 特有的二进制文件（.npy, .npz）、通用序列化文件（如 Pickle），甚至更复杂的数据格式（如 HDF5、JSON 等）。我们将逐一剖析这些类型，并提供实用的代码示例。

一、读取文本格式的数组文件

文本文件是最常见的数据存储格式，其优点是可读性强、易于共享。然而，其缺点是存储效率和读取速度相对较低，并且需要额外的解析步骤来转换为 Python 数组（通常是 NumPy 数组或 Pandas DataFrame）。

1.1 纯文本文件（自定义分隔符）

对于结构最简单的文本文件，例如每行是一组用空格、逗号或制表符分隔的数字，我们可以使用 Python 内置的文件操作结合字符串处理来读取。
# 示例文件:
# 1 2 3
# 4 5 6
# 7 8 9
import numpy as np
def read_simple_text_file(filepath):
data = []
with open(filepath, 'r') as f:
for line in f:
# 移除行尾空白符，然后按空格分割，并转换为浮点数
row = [float(x) for x in ().split()]
(row)
return (data)
# 创建一个示例文件
with open('', 'w') as f:
('1 2 3')
('4 5 6')
('7 8 9')
array_from_text = read_simple_text_file('')
print("从纯文本读取的数组:", array_from_text)
# 输出:
# [[1. 2. 3.]
# [4. 5. 6.]
# [7. 8. 9.]]

这种方法灵活但手动，对于大规模数据或复杂情况（如缺失值、不同数据类型）效率较低且容易出错。

1.2 使用 NumPy 读取文本文件

NumPy 提供了强大的函数来高效地从文本文件中读取数组，特别是当文件主要包含同类型数值数据时。

1.2.1 `()`

`loadtxt()` 适用于简单的、每行数据类型一致的文本文件，例如 CSV（逗号分隔值）或 TSV（制表符分隔值）文件。
# 示例文件:
# 1.0,2.0,3.0
# 4.0,5.0,6.0
# 7.0,8.0,9.0
# 创建一个示例 CSV 文件
with open('', 'w') as f:
('1.0,2.0,3.0')
('4.0,5.0,6.0')
('7.0,8.0,9.0')
# 使用读取
matrix_csv = ('', delimiter=',')
print("从 CSV 读取的数组 (loadtxt):", matrix_csv)
# 输出:
# [[1. 2. 3.]
# [4. 5. 6.]
# [7. 8. 9.]]
# 更多参数:
# skiprows: 跳过文件开头的行数 (例如跳过标题行)
# usecols: 指定读取哪些列
# dtype: 指定数据类型 (默认为 float)
matrix_int = ('', delimiter=',', dtype=int)
print("从 CSV 读取的整型数组:", matrix_int)

1.2.2 `()`

`genfromtxt()` 比 `loadtxt()` 更强大，它能更好地处理缺失值、不同数据类型以及更复杂的文本结构。当数据中可能存在字符串、缺失值或需要更精细控制时，`genfromtxt()` 是更好的选择。
# 示例文件:
# Name,Age,Score
# Alice,25,90.5
# Bob,,88.0
# Charlie,30,N/A
# 创建一个示例文件
with open('', 'w') as f:
('Name,Age,Score')
('Alice,25,90.5')
('Bob,,88.0')
('Charlie,30,N/A')
# 使用读取，处理缺失值和不同类型
# names=True 会从第一行识别列名
# dtype=None 会自动推断每列的数据类型
# missing_values: 指定哪些字符串代表缺失值
# filling_values: 替换缺失值
mixed_data = ('', delimiter=',', dtype=None, names=True,
encoding='utf-8', missing_values='N/A', filling_values=)
print("从混合文本读取的结构化数组 (genfromtxt):", mixed_data)
print("Alice的年龄:", mixed_data['Age'][0])
print("Bob的年龄 (缺失值):", mixed_data['Age'][1])
# 输出:
# [(b'Alice', 25., 90.5) (b'Bob', nan, 88. ) (b'Charlie', 30., nan)]
# Alice的年龄: 25.0
# Bob的年龄 (缺失值): nan

1.3 使用 Pandas 读取文本文件

Pandas 是 Python 中处理表格数据的“瑞士军刀”，其 `read_csv()` 函数是读取文本格式数组数据的最强大、最灵活的工具之一。它能自动处理标题、索引、数据类型推断、缺失值、日期时间解析等。
import pandas as pd
# 示例文件:
# Date,Product,Quantity,Price
# 2023-01-01,A,10,100.5
# 2023-01-02,B,5,50.25
# 2023-01-03,A,12,120.0
# 创建一个示例 CSV 文件
with open('', 'w') as f:
('Date,Product,Quantity,Price')
('2023-01-01,A,10,100.5')
('2023-01-02,B,5,50.25')
('2023-01-03,A,12,120.0')
df = pd.read_csv('')
print("从 CSV 读取的 DataFrame (pandas):", df)
# 将 DataFrame 转换为 NumPy 数组 (仅数值列)
numeric_array = df[['Quantity', 'Price']].to_numpy()
print("转换为 NumPy 数组:", numeric_array)
# read_csv 的更多参数:
# sep: 分隔符
# header: 指定标题行 (默认为 0，False 为无标题)
# index_col: 指定作为索引的列
# na_values: 指定哪些值应被视为 NaN
# parse_dates: 尝试将列解析为日期时间
# chunksize: 用于分块读取大文件，节省内存

对于大多数文本格式的数组文件，`pd.read_csv()`（及其变体 `read_table()`）是首选，它提供了极高的灵活性和强大的预处理能力。

二、读取二进制格式的数组文件

二进制文件以非人类可读的格式存储数据，但具有更高的存储效率和更快的读写速度，并且能精确保存数据类型和结构。对于大型数值数组，特别是 NumPy 数组，二进制格式是理想选择。

2.1 NumPy 特有的二进制格式 (.npy 和 .npz)

NumPy 提供了一种高效的二进制格式来存储 NumPy 数组，可以完美保留数组的形状、数据类型和数据。

2.1.1 `.npy` 文件 (单个数组)

`.npy` 文件用于存储单个 NumPy 数组。
import numpy as np
# 创建一个 NumPy 数组
my_array = (12).reshape(3, 4)
print("原始 NumPy 数组:", my_array)
# 保存为 .npy 文件
('', my_array)
print("数组已保存为 ")
# 从 .npy 文件读取
loaded_array = ('')
print("从 .npy 文件读取的数组:", loaded_array)

2.1.2 `.npz` 文件 (多个数组)

`.npz` 文件可以存储多个 NumPy 数组，它本质上是一个包含多个 `.npy` 文件的压缩包。读取时，它返回一个字典状的对象。
# 创建多个 NumPy 数组
array1 = ([1, 2, 3])
array2 = ([[10, 20], [30, 40]])
# 保存为 .npz 文件
('', arr1=array1, arr2=array2)
print("多个数组已保存为 ")
# 从 .npz 文件读取
loaded_data = ('')
print("从 .npz 文件读取的数据 (键列表):", )
print("读取的 array1:", loaded_data['arr1'])
print("读取的 array2:", loaded_data['arr2'])
# 关闭文件对象
()

NumPy 的 `.npy` 和 `.npz` 格式是存储和加载 NumPy 数组最高效、最可靠的方式。

2.2 Python 的通用序列化 (Pickle)

Python 的 `pickle` 模块可以将几乎任何 Python 对象序列化（“腌制”）成字节流，并将其保存到文件。这对于保存复杂的 Python 对象（包括包含 NumPy 数组的列表、字典等）非常方便。
import pickle
import numpy as np
# 创建一个包含 NumPy 数组的字典
data_to_save = {
'name': 'Experiment_A',
'results': ([[1.1, 2.2], [3.3, 4.4]]),
'parameters': {'lr': 0.01, 'epochs': 10}
}
# 保存为 pickle 文件
with open('', 'wb') as f: # 注意是 'wb' 写入二进制模式
(data_to_save, f)
print("数据已保存为 ")
# 从 pickle 文件读取
with open('', 'rb') as f: # 注意是 'rb' 读取二进制模式
loaded_data_pkl = (f)
print("从 pickle 文件读取的数据:", loaded_data_pkl)
print("读取的数组:", loaded_data_pkl['results'])

注意： `pickle` 的主要缺点是安全性问题（反序列化恶意数据可能执行任意代码）和 Python 版本兼容性问题。通常，对于纯数值数组，NumPy 的 `.npy/.npz` 更为推荐。

三、专门的数据格式与库

对于非常大的数据集或需要复杂元数据管理的数据，还有一些专门的数据格式和相应的 Python 库。

3.1 HDF5 (Hierarchical Data Format 5)

HDF5 是一种专门为存储和组织大量异构数据而设计的文件格式，特别适用于科学和工程领域。它支持多维数组、表格数据，并能够以类似文件系统的方式组织数据。`h5py` 是 Python 中操作 HDF5 文件的主要库。
# import h5py
#
# # 创建一个 HDF5 文件
# with ('my_h5_data.h5', 'w') as f:
# # 创建一个数据集 (相当于一个数组)
# dset = f.create_dataset('my_array', data=(100, 100))
# # 添加属性
# ['unit'] = 'meters'
# ['description'] = 'Random matrix data'
#
# # 也可以创建组来组织数据
# g1 = f.create_group('group1')
# g1.create_dataset('sub_array', data=(10))
#
# print("数据已保存为 my_h5_data.h5")
#
# # 从 HDF5 文件读取
# with ('my_h5_data.h5', 'r') as f:
# loaded_h5_array = f['my_array'][()] # [()] 读取整个数据集
# print("从 HDF5 读取的数组 (my_array):", loaded_h5_array[:2, :2]) # 只打印部分
# print("数组属性 (unit):", f['my_array'].attrs['unit'])
# print("Group1 中的 sub_array:", f['group1']['sub_array'][()])

HDF5 适用于 TB 级别的数据，并支持部分读取、压缩等高级功能。

3.2 JSON (JavaScript Object Notation)

JSON 是一种轻量级的数据交换格式，易于人阅读和编写，也易于机器解析和生成。虽然它主要用于结构化数据而非纯粹的数值数组，但也可以用来存储数组。
import json
import numpy as np
# 创建一个包含数组的 Python 字典
json_data = {
"matrix": ([[1, 2], [3, 4]]).tolist(), # NumPy 数组需要转换为 Python 列表
"vector": [5, 6, 7]
}
# 保存为 JSON 文件
with open('', 'w') as f:
(json_data, f, indent=4) # indent 参数使输出更具可读性
print("数据已保存为 ")
# 从 JSON 文件读取
with open('', 'r') as f:
loaded_json_data = (f)
print("从 JSON 文件读取的数据:", loaded_json_data)
# 如果需要，可以再次转换为 NumPy 数组
loaded_matrix = (loaded_json_data['matrix'])
print("从 JSON 转换回的 NumPy 矩阵:", loaded_matrix)

JSON 适用于数据量不大、需要跨语言交换或人机可读性强的场景。对于大型纯数值数组，性能不如二进制格式。

四、性能与最佳实践

选择合适的数组文件读取方法，不仅关乎功能实现，更关乎性能和资源效率。
选择正确的工具：

文本文件（CSV, TSV）： `pandas.read_csv()` 是首选，提供最佳的灵活性和预处理能力。对于简单、同构的数值数据，`()` 或 `()` 更轻量高效。
NumPy 数组： `()` 和 `()`（或 `()`）是存储和加载 NumPy 数组最快、最有效的方式。
复杂对象/Python 原生结构： `pickle` 可以保存任何 Python 对象，但要注意其安全性和兼容性。
大型/异构/分层数据： HDF5 (通过 `h5py`) 是最佳选择，提供高性能、压缩和分层组织能力。
小型、人机可读、跨语言： JSON 适用于此场景，但需注意将 NumPy 数组转换为 Python 列表。

考虑内存限制：对于非常大的文件，一次性加载到内存可能会导致内存溢出。

Pandas 的 `read_csv(chunksize=...)` 可以分块迭代读取。
`` 可以将磁盘文件映射到内存，实现按需访问而不完全加载。
HDF5 天生支持分块读取。

指定数据类型：在读取文本文件时，明确指定 `dtype`（如 `np.float32`、`np.int16`）可以显著减少内存占用并提高读取速度，避免 Python 自动推断带来的开销或精度问题。
压缩：对于文本文件，可以使用 gzip 或 bz2 压缩，NumPy 和 Pandas 都能直接读取压缩文件。例如：`pd.read_csv('')`。NumPy 的 `.npz` 格式本身就是压缩的。
错误处理：在生产代码中，始终使用 `try-except` 块来处理文件不存在、权限不足、文件内容格式错误等潜在问题。

Python 强大的生态系统提供了多种读取数组文件的方法，以适应不同的数据类型、文件格式和性能需求。从灵活的 Pandas DataFrame 到高效的 NumPy 二进制格式，再到专业级的 HDF5，理解它们的优缺点并根据具体场景做出明智的选择，是每个专业程序员和数据科学家必备的技能。熟练掌握这些工具，将能显著提升您的数据处理效率和代码质量。

2025-11-20

上一篇：深入理解Python Mainloop：构建响应式与异步应用的基石

下一篇：Python数据查找全攻略：掌握多样化数据来源与高效获取技巧