Python读取MAT文件：从基础到高效实践11

在科学计算、数据分析以及机器学习等领域，MATLAB作为一种强大的数值计算环境，常常用于数据的生成、处理和存储。其特有的MAT文件格式（.mat）也因此成为跨平台数据交换中不可忽视的一部分。当我们需要在更灵活、更通用的Python环境中处理这些MATLAB生成的数据时，如何高效、准确地读取MAT文件就成了一个核心问题。本文将作为一份详尽的指南，带领读者从MAT文件基础知识出发，深入探索Python中读取MAT文件的各种方法，包括常用库``的基本用法、处理复杂数据结构（如结构体、元胞数组）的技巧，以及针对大型MAT文件（如MAT v7.3版本）的高级处理策略，旨在为专业程序员提供一份从入门到精通的实践宝典。

理解MAT文件格式：为什么Python需要特殊处理？

MAT文件是MATLAB用于存储变量和工作区数据的二进制文件格式。随着MATLAB版本的演进，MAT文件格式也经历了多次迭代，主要分为以下几种：
MAT v5（或更早版本）：这是最常见的格式，由MATLAB 5.0及更高版本生成。它使用一种特定的二进制结构来存储数值数组、字符串、结构体、元胞数组等。
MAT v7（压缩格式）：MATLAB 7.0引入，支持数据压缩，通常兼容v5格式的读取器。
MAT v7.3（HDF5格式）：MATLAB 7.3及更高版本，特别是当数据量非常大时，MAT文件会基于HDF5（Hierarchical Data Format 5）格式存储。HDF5是一种开放的、跨平台的数据格式，用于存储和管理非常大的异构数据。

由于这些格式的内部结构差异，Python中读取MAT文件需要借助特定的库和方法。对于v5和v7格式，``库提供了强大的支持。而对于v7.3这种基于HDF5的格式，有时直接使用`h5py`库会更高效、更灵活。

核心工具：使用``读取MAT文件

`scipy`是Python科学计算的核心库之一，其`io`模块专门处理各种输入输出操作，其中`loadmat`函数就是读取MAT文件的首选工具。它能够很好地处理MATLAB v5和v7格式的文件。

1. 基本用法

要使用`loadmat`，首先需要安装`scipy`库（如果尚未安装）：`pip install scipy`。

假设我们有一个名为``的MAT文件，其中包含一些数值变量。最简单的读取方式如下：import
import numpy as np
# 假设包含变量 'matrix_a' 和 'vector_b'
# 可以在MATLAB中创建：
# matrix_a = magic(3);
# vector_b = [1; 2; 3];
# save('', 'matrix_a', 'vector_b');
try:
mat_contents = ('')
print("成功加载MAT文件！")
print("文件内容键值：", ())
# 访问变量
matrix_a = mat_contents['matrix_a']
vector_b = mat_contents['vector_b']
print("matrix_a:")
print(matrix_a)
print("类型：", type(matrix_a))
print("形状：", )
print("vector_b:")
print(vector_b)
print("类型：", type(vector_b))
print("形状：", )
except FileNotFoundError:
print("错误：文件未找到。请确保文件存在于当前目录。")
except Exception as e:
print(f"加载MAT文件时发生错误: {e}")

`loadmat`函数返回一个字典（`dict`），其中包含了MAT文件中所有的变量。字典的键是MATLAB中变量的名称，值是对应的``对象。`()`通常还会包含一些由`scipy`自动添加的内部元数据，如`__header__`、`__version__`和`__globals__`。

2. 处理不同数据类型

MATLAB支持多种数据类型，``在读取时会尽力将它们映射到Python/NumPy的对应类型。

2.1 数值数组 (Numeric Arrays)

这是最直接的转换。MATLAB的数值矩阵、向量都会被转换为``。需要注意的是，MATLAB的列向量在Python中通常会变成`N x 1`的二维数组。

2.2 字符串 (Strings)

MATLAB中的字符串（字符数组）通常会被转换为Python的``，其`dtype`为`object`，内部元素是Python字符串。如果MATLAB字符串是`'hello'`，它可能会被读取为`(['hello'], dtype=object)`。# MATLAB: str_var = 'Hello Python'; save('', 'str_var');
mat_str_contents = ('')
str_var = mat_str_contents['str_var']
print("str_var:")
print(str_var)
print("类型：", type(str_var)) #
print("内容类型：", type(str_var[0])) #
print("实际字符串：", str_var[0])

2.3 结构体 (Structs)

MATLAB结构体（struct）会被转换成``，其`dtype`是`object`，每个元素都是一个`dict`（或者嵌套的``类型，表现上像字典）。访问结构体字段时需要注意其独特的索引方式。# MATLAB:
# = 'Alice'; = 30; = 'NY'; = '10001';
# arr_s(1).val = 10; arr_s(2).val = 20;
# save('', 's', 'arr_s');
mat_struct_contents = ('')
# 单个结构体 's'
s = mat_struct_contents['s']
print("s (单个结构体):")
print(s)
# 注意：即使是单个结构体，loadmat也可能将其包装在一个 (1,1) 的NumPy数组中
# 所以通常需要 s[0,0] 来访问其内容
print("s的类型:", type(s)) #
print("s[0,0]的类型:", type(s[0,0])) # (行为类似字典)
print(":", s[0,0]['name'][0]) # 再次被包装成数组
print(":", s[0,0]['age'][0])
print(":", s[0,0]['address'][0,0]['city'][0])
# 结构体数组 'arr_s'
arr_s = mat_struct_contents['arr_s']
print("arr_s (结构体数组):")
print(arr_s)
# 遍历结构体数组
for i in range([1]): # 注意MATLAB是列主序，NumPy是行主序
item = arr_s[0, i] # 假设是1行N列的结构体数组
print(f"arr_s[{i}].val: {item['val'][0]}")

关键点：

`loadmat`通常会将MATLAB的标量结构体转换为形状为`(1, 1)`的``，其内部元素是``类型，行为类似字典。因此，你需要使用`struct_var[0, 0]`来访问实际的结构体内容。
结构体内的字段值也可能被包装在单个元素的``中，例如`struct_var[0, 0]['field_name'][0]`。
结构体数组（如MATLAB的`s(1).field`）会被转换为``，其内部元素为``。

2.4 元胞数组 (Cell Arrays)

MATLAB的元胞数组（cell array）会被转换为``，其`dtype`为`object`，每个元素都可以是不同的Python对象（例如数值、字符串、甚至其他NumPy数组）。# MATLAB:
# c = {10, 'hello', magic(2)};
# arr_c = {'a', 'b'; 1, 2};
# save('', 'c', 'arr_c');
mat_cell_contents = ('')
# 单个元胞数组 'c'
c = mat_cell_contents['c']
print("c (单个元胞数组):")
print(c)
# 同样，标量元胞数组也可能被包装在 (1,N) 或 (N,1) 的NumPy数组中
print("c[0,0]:", c[0,0]) # 10
print("c[0,1]:", c[0,1]) # 'hello'
print("c[0,2]:", c[0,2]) # [[1. 2.] [3. 4.]] ()
# 矩阵元胞数组 'arr_c'
arr_c = mat_cell_contents['arr_c']
print("arr_c (矩阵元胞数组):")
print(arr_c)
print("arr_c[0,0]:", arr_c[0,0]) # 'a'
print("arr_c[0,1]:", arr_c[0,1]) # 'b'
print("arr_c[1,0]:", arr_c[1,0]) # 1
print("arr_c[1,1]:", arr_c[1,1]) # 2

关键点：

元胞数组会被转换为`object`类型的``，其形状与MATLAB元胞数组的形状一致。
通过正常的NumPy索引即可访问其内部元素。

2.5 稀疏矩阵 (Sparse Matrices)

``能够识别并加载MATLAB的稀疏矩阵，将其转换为``模块中的稀疏矩阵格式（如CSR、CSC等）。import as sp
# MATLAB:
# S = sparse(eye(5));
# save('', 'S');
mat_sparse_contents = ('')
S_sparse = mat_sparse_contents['S']
print("S_sparse (稀疏矩阵):")
print(S_sparse)
print("类型：", type(S_sparse)) # (或csc_matrix)
print("是否稀疏矩阵：", (S_sparse))
# 转换为密集矩阵（如果需要）
S_dense = ()
print("转换为密集矩阵:")
print(S_dense)

处理MAT v7.3文件：`h5py`的强大功能

当MAT文件以v7.3格式保存时（通常是由于数据量过大），它实际上是一个HDF5文件。虽然``在某些情况下也能读取v7.3文件，但直接使用`h5py`库通常更推荐，因为它提供了更灵活、更底层的HDF5文件操作接口，特别适合处理超大型数据集和部分数据读取。

1. 安装`h5py`

首先安装`h5py`：`pip install h5py`。

2. 基本用法

`h5py`将HDF5文件视为一个类似Python字典的结构，你可以通过键来访问数据集（dataset）和组（group）。数据集是实际存储数据的地方，而组则用于组织结构。import h5py
import numpy as np
# 假设是MATLAB v7.3格式的文件，包含一个名为'large_matrix'的变量
# 可以在MATLAB中创建：
# large_matrix = rand(1000, 1000); % 或更大
# save('', 'large_matrix', '-v7.3'); # 强制保存为v7.3
try:
with ('', 'r') as f:
print("成功打开MAT v7.3文件！")
print("文件中的顶层键：", list(()))
# HDF5文件通常会在根目录（或特定组）下找到MATLAB变量
# MATLAB变量通常存储在 '/#' 组下，或直接作为根目录的dataset
# 通常变量名就是dataset的名称
if 'large_matrix' in f:
large_matrix = f['large_matrix'][:] # 使用[:]读取整个数据集到内存
print("large_matrix:")
print("类型：", type(large_matrix))
print("形状：", )
print("数据类型：", )
# print(large_matrix) # 避免打印过大矩阵
else:
print("未找到 'large_matrix' 变量。")
except FileNotFoundError:
print("错误：文件未找到。请确保文件存在。")
except Exception as e:
print(f"加载MAT v7.3文件时发生错误: {e}")

关键点：

使用`('', 'r')`以只读模式打开文件。
文件对象`f`的行为类似于字典，`()`列出顶层数据集和组。
通过`f['variable_name']`访问数据集对象。
使用`f['variable_name'][:]`将整个数据集加载到内存中，返回一个``。
对于非常大的数据集，可以避免一次性加载，而是分块读取或只读取特定部分。

3. `h5py`处理复杂结构

`h5py`直接暴露了HDF5的底层结构，因此MATLAB的结构体和元胞数组在HDF5文件中会以更原始的形式存在，通常表现为嵌套的组和数据集。理解其映射关系需要一定的经验或工具辅助。
结构体： MATLAB结构体的每个字段通常会成为HDF5文件中的一个数据集，而结构体本身则可能是一个组。
元胞数组： 元胞数组在HDF5中可能更为复杂，通常会以一个特殊的数据集来存储其元素的引用，或者将每个元素作为独立的数据集。

例如，如果MATLAB中有一个结构体` = 'Alice'; = 30;`，在HDF5中你可能会看到一个名为`s`的组，其中包含`name`和`age`两个数据集。访问时需要递归地探索HDF5文件的结构。# 假设一个更复杂的MATLAB v7.3文件 ''
# MATLAB:
# = 1; = 'UserA'; = rand(5,5);
# c = {'str_elem', 123, magic(3)};
# save('', 's', 'c', '-v7.3');
try:
with ('', 'r') as f:
print("Exploring with h5py:")

# 递归打印HDF5文件结构
def print_h5_items(name, obj):
print(f"{name}: {obj}")
if isinstance(obj, ):
for key in ():
print_h5_items(f"{name}/{key}", obj[key])
print_h5_items("/", f)
# 访问结构体 's'
if 's' in f:
s_group = f['s']
print("Accessing struct 's':")
print(":", s_group['id'][0,0]) # 注意MATLAB的数据通常是 (1,1) 的二维数组
print(":", s_group['name'][0,0].decode('utf-16')) # 字符串需要解码
print(" shape:", s_group['data'].shape)
# 访问元胞数组 'c' (通常更复杂，可能需要特定解析器或查看MATLAB导出的HDF5结构)
# 简单元胞数组在v7.3下可能表现为多个引用的数据集，或特殊编码的数据集
# 这里仅作示例，实际解析可能更复杂
if 'c' in f:
c_group = f['c']
print("Accessing cell array 'c' (simplified):")
# 实际结构可能需要根据MATLAB实际保存方式确定
# 比如，如果'c'是一个引用类型，那么其内部会是HDF5引用，需要进一步解析
# 这里我们假设它直接包含了元素
# 通常MATLAB会将cell array保存为一组引用，或一个高维的object数组
# 示例如：如果MATLAB保存的是一个1x3的cell array
# 你可能需要找到对应的引用，然后解引用
# f['c_idx'] 可能是引用， f[f['c_idx'][0,0]] 才是第一个元素
# 这是一个复杂的话题，简而言之，h5py提供工具，但需要手动解析MATLAB的HDF5编码规则
# 对于复杂类型，可能在v7.3文件兼容时反而更方便
print(f"c_group keys: {list(())}")
except Exception as e:
print(f"加载复杂MAT v7.3文件时发生错误: {e}")

对于MAT v7.3的复杂结构，``在能够读取的情况下会尝试将它们解析为字典和列表，这可能比直接用`h5py`手动解析HDF5结构更方便。但如果``因内存或兼容性问题失败，`h5py`就是唯一的选择，此时就需要对HDF5内部结构有更深入的了解。

最佳实践与注意事项
选择合适的工具：

对于MATLAB v5和v7格式的文件，以及尺寸适中的v7.3文件，优先使用``。它能自动将MATLAB数据类型映射到Python/NumPy的对应类型，使用方便。
对于大型MATLAB v7.3文件，特别是需要内存效率、分块读取或只读取部分变量时，`h5py`是更好的选择。但你需要手动处理HDF5的组和数据集结构。

内存管理：

``在加载文件时，默认会尝试将所有数据读入内存。对于非常大的文件，这可能导致内存溢出。可以使用`mmap_mode`参数来优化：`('', mmap_mode='r')`尝试使用内存映射文件，减少内存峰值，但并非对所有系统和文件类型都有效。
`h5py`的优势在于它可以按需读取数据。例如，`f['large_matrix']`返回的是一个数据集对象，而不是数据本身。只有当你执行`f['large_matrix'][:]`时，数据才会被加载到内存。你可以分块读取：`data = f['large_matrix'][0:100, :]`。

MATLAB版本兼容性：

如果遇到``无法识别的MAT文件，首先检查MATLAB保存文件的版本。尝试在MATLAB中将其重新保存为旧版本格式（如`-v7`），例如：`save('', 'var1', 'var2', '-v7')`。

字符串编码：

MATLAB字符串在HDF5文件中通常以UTF-16或其他编码存储，使用`h5py`读取后可能需要手动`decode()`。例如：`f['string_data'][0,0].decode('utf-16')`。``通常会为你处理好。

错误处理：

始终使用`try-except`块来包裹文件读取操作，以处理`FileNotFoundError`或其他潜在的IO错误。

写入MAT文件：

``函数可以将Python/NumPy变量保存为MAT文件，实现数据的往返。
import
import numpy as np
# 创建一些Python数据
python_matrix = ([[1, 2], [3, 4]])
python_string = 'Hello from Python'
python_dict_struct = {'name': 'Charlie', 'score': 95}
# 保存到MAT文件
('',
{'py_mat': python_matrix,
'py_str': python_string,
'py_struct': python_dict_struct})
print("数据已保存到 ")
# 在MATLAB中可以 load('') 查看

Python在科学计算领域拥有强大的生态系统，与MATLAB进行数据交互是日常工作中常见的需求。通过本文，我们详细探讨了如何利用``和`h5py`两大工具高效读取MAT文件。``因其便捷性和对常见MAT文件格式的良好支持，成为首选。然而，面对日益增长的数据量和MATLAB v7.3 HDF5格式的普及，`h5py`提供了更底层、更灵活的控制，尤其在处理超大型文件和需要精细内存管理时，其优势更加明显。掌握这两种方法，并理解它们各自的适用场景和注意事项，将使你能够游刃有余地在Python中处理各种MATLAB数据，为你的科学计算和数据分析工作带来极大的便利和效率提升。

2025-10-22

上一篇：Python数据结构核心：列表、字符串与元组的深度解析、比较与实战应用

下一篇：Python项目打包与分发：利用Setuptools和Pip构建可共享模块