深入实践：Python `scikit-learn` 中的 K 近邻 (KNN) 算法详解342

```html

作为一名专业的程序员，我们深知在处理数据和构建智能系统时，选择合适的算法和工具至关重要。在机器学习领域，K 近邻（K-Nearest Neighbors, KNN）算法因其概念简单、易于理解和实现，成为初学者入门和解决一些实际问题的首选。尽管标题提及“Python自带KNN函数”，但严格来说，Python标准库本身并没有一个名为`KNN`的“自带”函数。然而，Python强大的科学计算生态系统，特别是其核心库`scikit-learn`，为我们提供了高度优化且易于使用的KNN实现，这已成为事实上的“Python自带”KNN功能，也是我们在实际开发中最常接触和使用的形式。本文将深入探讨`scikit-learn`中KNN的实现细节、用法、优化技巧及注意事项。

一、 K近邻（KNN）算法核心概念

K近邻算法是一种非参数的、惰性学习的分类和回归方法。其核心思想是：“物以类聚，人以群分”。
分类问题：给定一个未知类别的样本，KNN算法会计算它与训练集中所有样本的距离，找出距离最近的K个邻居。然后，根据这K个邻居的类别进行投票，将未知样本归类到得票最多的类别。
回归问题：对于回归问题，同样找出最近的K个邻居，然后将这K个邻居的标签值（通常是连续值）的平均值或加权平均值作为未知样本的预测值。

KNN算法的几个关键要素：
K值：邻居的数量。K值过小容易受噪声影响，模型泛化能力差；K值过大则可能将较远的、不相关的点纳入判断，模糊了边界。
距离度量：如何计算两个样本之间的“远近”。最常用的是欧氏距离（Euclidean Distance），此外还有曼哈顿距离（Manhattan Distance）、切比雪夫距离（Chebyshev Distance）等。
决策规则：如何根据K个邻居做出最终判断。分类通常是多数投票，回归通常是平均值。也可以采用加权投票/平均，距离越近的邻居权重越大。

二、 Python `scikit-learn` 中的 KNN 实现

`scikit-learn`是Python中最流行的机器学习库之一，它提供了`KNeighborsClassifier`用于分类任务和`KNeighborsRegressor`用于回归任务。在使用之前，确保你已经安装了`scikit-learn`：pip install scikit-learn numpy pandas matplotlib

2.1 `KNeighborsClassifier`：K近邻分类器

`KNeighborsClassifier`是`scikit-learn`中用于实现KNN分类的核心类。它的主要参数和方法如下：

常用参数：

`n_neighbors` (int, default=5)：指定K值，即用于分类的邻居数量。这是最重要的参数。
`weights` (str or callable, default='uniform')：

`'uniform'`：所有邻居的权重都相同（标准多数投票）。
`'distance'`：根据邻居的距离分配权重，距离越近的邻居权重越大（距离的倒数）。
自定义函数：可以传入一个自定义的权重函数。

`algorithm` (str, default='auto')：用于计算近邻的算法。

`'auto'`：尝试根据数据自动选择最合适的算法。
`'ball_tree'`：使用BallTree算法。
`'kd_tree'`：使用KDTree算法。
`'brute'`：使用暴力搜索，计算所有点之间的距离。对于小数据集或高维数据，暴力搜索可能更快。

`metric` (str or callable, default='minkowski')：距离度量方式。

`'minkowski'`：闵可夫斯基距离，当`p=1`时为曼哈顿距离，`p=2`时为欧氏距离。
`'euclidean'`：欧氏距离。
`'manhattan'`：曼哈顿距离。
更多：`'chebyshev'`, `'cosine'`, `'hamming'` 等。也可以传入自定义距离函数。

`p` (int, default=2)：当`metric='minkowski'`时，指定闵可夫斯基距离的幂参数。`p=1`表示曼哈顿距离，`p=2`表示欧氏距离。

常用方法：

`fit(X, y)`：使用训练数据`X`和标签`y`训练模型。
`predict(X)`：对新的样本`X`进行预测，返回预测的类别标签。
`predict_proba(X)`：对新的样本`X`进行预测，返回属于每个类别的概率估计。
`score(X, y)`：返回在测试数据`X`和真实标签`y`上的平均准确率（Accuracy）。

2.2 `KNeighborsRegressor`：K近邻回归器

`KNeighborsRegressor`用于实现KNN回归。其参数与`KNeighborsClassifier`基本相同，只是`weights`参数在回归中表示邻居值如何平均，而不是投票。方法也类似，但`predict`返回的是连续值，且没有`predict_proba`方法。

常用参数：

`n_neighbors` (int, default=5)：指定K值，即用于回归的邻居数量。
`weights` (str or callable, default='uniform')：

`'uniform'`：所有邻居的预测值都具有相同权重（简单平均）。
`'distance'`：根据邻居的距离分配权重，距离越近的邻居权重越大（距离加权平均）。
自定义函数：可以传入一个自定义的权重函数。

`algorithm`, `metric`, `p` 等参数与`KNeighborsClassifier`相同。

常用方法：

`fit(X, y)`：使用训练数据`X`和目标值`y`训练模型。
`predict(X)`：对新的样本`X`进行预测，返回预测的连续值。
`score(X, y)`：返回在测试数据`X`和真实目标值`y`上的R²得分（决定系数）。

三、 KNN实践：分类与回归示例

3.1 KNN分类示例：鸢尾花数据集

我们将使用经典的鸢尾花（Iris）数据集来演示`KNeighborsClassifier`的用法。import numpy as np
from import load_iris
from sklearn.model_selection import train_test_split
from import StandardScaler
from import KNeighborsClassifier
from import accuracy_score, classification_report
import as plt
# 1. 加载数据集
iris = load_iris()
X, y = ,
print(f"数据集特征形状: {}, 目标形状: {}")
# 2. 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)
print(f"训练集大小: {[0]}, 测试集大小: {[0]}")
# 3. 特征缩放 (KNN对特征尺度敏感，非常重要！)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = (X_test)
# 4. 初始化并训练KNeighborsClassifier
# 尝试不同的K值
k_values = range(1, 21)
accuracies = []
for k in k_values:
knn_classifier = KNeighborsClassifier(n_neighbors=k, weights='distance', metric='euclidean')
(X_train_scaled, y_train)
y_pred = (X_test_scaled)
acc = accuracy_score(y_test, y_pred)
(acc)
# print(f"K={k}, 准确率: {acc:.4f}")
# 绘制K值与准确率的关系图
(figsize=(10, 6))
(k_values, accuracies, marker='o', linestyle='-')
('KNN Classifier Accuracy vs. K Value')
('Number of Neighbors (K)')
('Accuracy')
(k_values)
(True)
()
# 选择最佳K值（例如，这里我们取最高准确率的K）
best_k = k_values[(accuracies)]
print(f"最佳K值: {best_k}, 对应的最高准确率: {(accuracies):.4f}")
# 使用最佳K值进行最终模型训练和评估
final_knn_classifier = KNeighborsClassifier(n_neighbors=best_k, weights='distance', metric='euclidean')
(X_train_scaled, y_train)
y_pred_final = (X_test_scaled)
print("最终模型评估报告:")
print(f"准确率: {accuracy_score(y_test, y_pred_final):.4f}")
print("分类报告:")
print(classification_report(y_test, y_pred_final, target_names=iris.target_names))
# 预测概率
y_proba = final_knn_classifier.predict_proba(X_test_scaled[:5])
print(f"前5个测试样本的类别概率预测:{y_proba}")

3.2 KNN回归示例：糖尿病数据集

接下来，我们使用糖尿病（Diabetes）数据集来演示`KNeighborsRegressor`的用法。from import load_diabetes
from sklearn.model_selection import train_test_split
from import StandardScaler
from import KNeighborsRegressor
from import mean_squared_error, mean_absolute_error, r2_score
import as plt
# 1. 加载数据集
diabetes = load_diabetes()
X, y = ,
print(f"数据集特征形状: {}, 目标形状: {}")
# 2. 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
print(f"训练集大小: {[0]}, 测试集大小: {[0]}")
# 3. 特征缩放
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = (X_test)
# 4. 初始化并训练KNeighborsRegressor
# 尝试不同的K值
k_values_reg = range(1, 21)
mse_scores = []
r2_scores = []
for k in k_values_reg:
knn_regressor = KNeighborsRegressor(n_neighbors=k, weights='distance', metric='euclidean')
(X_train_scaled, y_train)
y_pred = (X_test_scaled)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
(mse)
(r2)
# 绘制K值与MSE、R2的关系图
(figsize=(12, 6))
(1, 2, 1)
(k_values_reg, mse_scores, marker='o', linestyle='-', color='red')
('KNN Regressor MSE vs. K Value')
('Number of Neighbors (K)')
('Mean Squared Error (MSE)')
(k_values_reg)
(True)
(1, 2, 2)
(k_values_reg, r2_scores, marker='o', linestyle='-', color='blue')
('KNN Regressor R² Score vs. K Value')
('Number of Neighbors (K)')
('R² Score')
(k_values_reg)
(True)
plt.tight_layout()
()
# 选择最佳K值 (通常选择MSE最小或R2最大的K)
best_k_reg_mse = k_values_reg[(mse_scores)]
best_k_reg_r2 = k_values_reg[(r2_scores)]
print(f"最佳K值 (基于最小MSE): {best_k_reg_mse}, 对应的MSE: {(mse_scores):.4f}")
print(f"最佳K值 (基于最大R²): {best_k_reg_r2}, 对应的R²: {(r2_scores):.4f}")
# 使用最佳K值（例如，这里我们取R2最大的K）进行最终模型训练和评估
final_knn_regressor = KNeighborsRegressor(n_neighbors=best_k_reg_r2, weights='distance', metric='euclidean')
(X_train_scaled, y_train)
y_pred_final = (X_test_scaled)
print("最终模型评估报告:")
print(f"均方误差 (MSE): {mean_squared_error(y_test, y_pred_final):.4f}")
print(f"平均绝对误差 (MAE): {mean_absolute_error(y_test, y_pred_final):.4f}")
print(f"R²得分: {r2_score(y_test, y_pred_final):.4f}")
# 可视化预测结果与真实值
(figsize=(8, 6))
(y_test, y_pred_final, alpha=0.6)
([(), ()], [(), ()], 'r--', lw=2)
("真实值")
("预测值")
("KNN Regressor: 真实值 vs. 预测值")
(True)
()

四、 KNN的优化与注意事项

虽然KNN简单易用，但在实际应用中仍需注意以下几点以优化其性能和效果：

4.1 数据预处理的重要性

特征缩放是KNN的命脉。由于KNN是基于距离度量的，不同尺度的特征会严重影响距离计算。例如，一个特征的取值范围是0-1000，另一个是0-1，那么取值范围大的特征将主导距离计算。因此，在应用KNN之前，务必使用`StandardScaler`（标准化）或`MinMaxScaler`（归一化）对数据进行缩放。

4.2 K值的选择

K值的选择是KNN算法的关键。没有一个通用的最佳K值，它高度依赖于数据集。常用的选择方法有：
交叉验证：通过交叉验证（如`GridSearchCV`），在验证集上评估不同K值的性能，选择表现最好的K。
试错法：从小K值开始，逐步增加，观察模型性能变化（如本文示例中的绘图）。
经验法则：有时会使用样本总数的平方根作为K值的参考，但这并非严格的规则。

4.3 距离度量（`metric`参数）

选择合适的距离度量也很重要。

欧氏距离（Euclidean Distance）：最常用，适用于连续型数据，假设特征之间相互独立。
曼哈顿距离（Manhattan Distance）：适用于高维数据，或者当特征的各个维度有不同含义时。
余弦相似度（Cosine Similarity）：在文本分类、推荐系统等领域常用，关注向量方向而非大小，适用于稀疏数据。
马氏距离（Mahalanobis Distance）：考虑了不同特征维度之间的相关性，但计算成本较高。

在`scikit-learn`中，通过`metric`参数即可轻松切换。

4.4 权重设置（`weights`参数）

默认情况下，所有邻居的贡献是相同的（`weights='uniform'`）。但距离较远的邻居可能包含更多噪声，其贡献应小于距离较近的邻居。通过设置`weights='distance'`，`scikit-learn`会根据距离的倒数来加权，使得近邻的影响更大。

4.5 计算效率（`algorithm`参数）

当数据集规模较大时，暴力搜索（`algorithm='brute'`）K个最近邻的效率会非常低下（O(N^2)）。`scikit-learn`提供了更高效的算法：
KDTree：适用于低维（约20维以下）数据，构建树结构来加速搜索。
BallTree：适用于高维数据或非欧氏距离度量，比KDTree在某些情况下表现更好。

当维度不是特别高，且数据点分布不是特别病态时，`'auto'`通常能很好地选择。

4.6 高维灾难（Curse of Dimensionality）

KNN在高维空间中表现会急剧下降，这就是“高维灾难”。在高维空间中，所有样本点之间的距离趋于相等，使得“最近邻”的概念变得不再有意义。此时，可以考虑降维技术（如PCA）或选择其他更适合高维数据的算法。

4.7 内存消耗与惰性学习

KNN是“惰性学习”算法，因为它在训练阶段并不真正学习一个模型，而是简单地存储所有的训练数据。预测时才进行计算。这意味着：
训练速度快：几乎不需要训练时间。
预测速度慢：每次预测都需要计算与训练集中所有点的距离，计算成本高。
内存消耗大：需要存储整个训练数据集。

对于非常大的数据集，KNN可能不是最佳选择。

五、总结

Python通过`scikit-learn`库提供了功能强大、易于使用的K近邻算法实现，包括`KNeighborsClassifier`和`KNeighborsRegressor`。虽然没有所谓“自带”的KNN函数，但`scikit-learn`的实现已成为Python机器学习的行业标准。

KNN算法概念简单直观，适用于许多分类和回归任务，尤其是在决策边界不规则或数据量较小的情况下。然而，它对特征尺度敏感，且在高维数据和大数据集上存在性能瓶颈。掌握其核心参数（`n_neighbors`, `weights`, `metric`, `algorithm`）的含义和选择，并结合适当的数据预处理（特征缩放）和超参数调优（如交叉验证），能够帮助我们更好地利用KNN算法解决实际问题。

希望本文能帮助你深入理解Python `scikit-learn` 中的KNN算法，并在你的数据科学和机器学习项目中有效地应用它！```

2026-04-18

上一篇：Python循环删除文件：安全高效自动化清理的全面指南

下一篇：Python文件操作精髓：从打开到关闭，保障数据安全与性能