Python读取和处理MNIST数据集：从文件加载到数据预处理380

MNIST数据集是机器学习领域中一个经典的手写数字数据集，包含60000张训练图像和10000张测试图像，每张图像都是一个28x28像素的灰度图像，表示0到9中的一个数字。学习如何高效地读取和处理MNIST数据集是许多机器学习项目的入门必备技能。本文将详细介绍如何使用Python读取MNIST数据集的不同格式（IDXA和CSV），并进行一些常用的数据预处理操作，为后续的模型训练做好准备。

MNIST数据集通常以两种主要的格式提供：一种是IDX文件格式（包含图像和标签数据），另一种是CSV格式（以逗号分隔值的形式存储数据）。我们将分别讲解如何处理这两种格式。

使用Python读取IDX格式的MNIST数据

IDX文件格式是一种相对简单的二进制文件格式。我们可以使用Python的`numpy`库来轻松读取这种格式的数据。 `numpy`库提供了一个高效的`frombuffer`函数，可以将二进制数据直接加载到NumPy数组中。以下代码展示了如何读取MNIST的IDX文件：```python
import numpy as np
import os
def load_mnist_idx(filename):
"""
读取MNIST IDX文件。
Args:
filename: IDX文件的路径。
Returns:
一个包含图像数据的NumPy数组和一个包含标签数据的NumPy数组。
返回None如果文件不存在或格式错误。
"""
try:
with open(filename, 'rb') as f:
magic = int.from_bytes((4), 'big')
n_items = int.from_bytes((4), 'big')
n_rows = int.from_bytes((4), 'big')
n_cols = int.from_bytes((4), 'big') if magic == 2051 else 1 # check for images or labels
data = ((), dtype=np.uint8).reshape(n_items, n_rows * n_cols if magic == 2051 else 1) #check for images or labels
return data
except FileNotFoundError:
print(f"Error: File '{filename}' not found.")
return None
except Exception as e:
print(f"Error loading '{filename}': {e}")
return None

# Example usage:
images = load_mnist_idx("train-images-idx3-ubyte")
labels = load_mnist_idx("train-labels-idx1-ubyte")
if images is not None and labels is not None:
print("Images shape:", )
print("Labels shape:", )
else:
print("Failed to load MNIST data.")

```

这段代码首先检查文件是否存在，然后读取文件头部信息（魔数和数据维度），最后将二进制数据转换为NumPy数组。注意，我们需要分别读取图像文件和标签文件。 `magic`数值用来区分图像和标签文件。

使用Python读取CSV格式的MNIST数据

CSV格式的MNIST数据更加易于读取，我们可以直接使用Python的`csv`库或`pandas`库来读取。 `pandas`库提供更强大的数据处理功能：```python
import pandas as pd
def load_mnist_csv(filename):
"""
读取MNIST CSV文件。
Args:
filename: CSV文件的路径。
Returns:
一个pandas DataFrame，包含图像数据和标签数据。
返回None如果文件不存在或格式错误。
"""
try:
df = pd.read_csv(filename)
return df
except FileNotFoundError:
print(f"Error: File '{filename}' not found.")
return None
except :
print(f"Error: File '{filename}' is empty.")
return None
except :
print(f"Error: Could not parse file '{filename}'. Check the format.")
return None

# Example usage:
df = load_mnist_csv("")
if df is not None:
print(())
images = ('label', axis=1).(np.float32) / 255.0 #Normalize Images
labels = df['label'].(np.int32)
print("Images shape:", )
print("Labels shape:", )
else:
print("Failed to load MNIST data.")
```