Python处理非平衡数据集：采样、代价敏感学习及集成方法22

在机器学习中，非平衡数据集是指不同类别样本数量差异巨大的数据集。例如，在欺诈检测中，欺诈样本通常远少于正常样本；在医疗诊断中，患病样本也可能远少于健康样本。这种数据不平衡会严重影响模型的性能，尤其会导致模型对少数类别的预测准确率极低，甚至倾向于预测多数类别。Python提供了丰富的库和方法来处理这种非平衡数据，本文将详细介绍几种常用的技术。

1. 数据重采样 (Resampling)

数据重采样是处理非平衡数据的常用方法，它通过调整样本数量来平衡数据集。主要包括以下两种策略：
过采样 (Oversampling): 增加少数类样本的数量。常用的方法包括：

随机过采样 (Random Oversampling): 随机复制少数类样本。简单易行，但可能导致过拟合。
SMOTE (Synthetic Minority Over-sampling Technique): 通过插值生成新的少数类样本。比随机过采样更有效，但计算成本较高，且可能生成与真实数据分布差异较大的样本。
ADASYN (Adaptive Synthetic Sampling Approach): 根据样本的难易程度自适应地生成合成样本，对较难学习的少数类样本生成更多合成样本。

欠采样 (Undersampling): 减少多数类样本的数量。常用的方法包括：

随机欠采样 (Random Undersampling): 随机删除多数类样本。简单易行，但可能丢失重要的信息。
NearMiss: 基于距离度量选择保留的多数类样本。例如，NearMiss-1 选择距离最近的少数类样本的多数类样本；NearMiss-2 选择距离所有少数类样本平均距离最小的多数类样本；NearMiss-3 选择距离最远少数类样本的多数类样本。
Tomek links: 移除多数类样本和少数类样本组成的Tomek links，即距离最近的异类样本对。

Python代码示例 (SMOTE):```python
from imblearn.over_sampling import SMOTE
from import make_classification
from sklearn.model_selection import train_test_split
# 生成不平衡数据集
X, y = make_classification(n_samples=1000, n_features=2, n_informative=2,
n_redundant=0, n_repeated=0, n_classes=2,
n_clusters_per_class=1, weights=[0.9, 0.1],
random_state=42)
# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 使用SMOTE进行过采样
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)
# 训练模型 (例如逻辑回归)
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
(X_train_resampled, y_train_resampled)
# 评估模型
from import classification_report
y_pred = (X_test)
print(classification_report(y_test, y_pred))
```

2. 代价敏感学习 (Cost-Sensitive Learning)

代价敏感学习通过调整不同类别错误分类的代价来处理非平衡数据。例如，将少数类错误分类的代价设置为高于多数类错误分类的代价。这可以通过修改模型的损失函数或调整模型的超参数来实现。许多机器学习算法都支持代价敏感学习，例如支持向量机 (SVM) 和逻辑回归。

Python代码示例 (代价敏感逻辑回归):```python
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(class_weight='balanced') # class_weight='balanced' 自动调整权重
(X_train, y_train)
# ... (后续评估步骤与上面相同)
```

3. 集成方法 (Ensemble Methods)

集成方法通过组合多个模型的预测结果来提高模型的性能。一些集成方法，例如Bagging和Boosting，对非平衡数据特别有效。Bagging方法，例如随机森林，可以减少过拟合，而Boosting方法，例如AdaBoost和Gradient Boosting，可以关注少数类样本。

Python代码示例 (随机森林):```python
from import RandomForestClassifier
model = RandomForestClassifier(class_weight='balanced')
(X_train, y_train)
# ... (后续评估步骤与上面相同)
```

4. 选择合适的评估指标

在评估处理非平衡数据的模型时，仅仅依靠准确率是不够的，因为它可能会被多数类样本所掩盖。需要使用更合适的指标，例如：
精确率 (Precision): 正确预测的正样本比例。
召回率 (Recall): 实际正样本中被正确预测的比例。
F1值 (F1-score): 精确率和召回率的调和平均数。
AUC (Area Under the Curve): ROC曲线下的面积，衡量模型区分正负样本的能力。

选择合适的评估指标取决于具体的应用场景和目标。

总结

处理非平衡数据是一个复杂的问题，没有一种通用的解决方案。选择合适的方法需要根据数据的特点和应用场景进行权衡。本文介绍了几种常用的方法，包括数据重采样、代价敏感学习和集成方法，以及相应的Python代码示例。希望本文能帮助读者更好地理解和处理非平衡数据集。

2025-05-20

上一篇：Python 日期字符串比较：技巧、陷阱与最佳实践

下一篇：Python 字符串分割技巧：多种方法应对复杂场景