Python实现K近邻算法详解及代码示例241

K近邻算法(K-Nearest Neighbors, KNN) 是一种简单且有效的监督学习算法，用于分类和回归。它基于这样一个思想：如果一个样本在特征空间中的k个最相似(最邻近)的样本中的大多数属于某个类别，则该样本也属于这个类别。 KNN算法的优势在于简单易懂，易于实现，无需训练过程，并且可以用于多分类问题。然而，它的缺点也比较明显，计算量大，尤其是在高维数据集中，需要大量的计算资源，并且对噪声数据比较敏感。

本文将详细介绍KNN算法的原理，并提供Python代码实现，包括数据预处理、模型训练（KNN算法本身没有显式的训练过程，但需要准备数据）、预测和模型评估。我们将使用scikit-learn库来简化实现过程，并使用鸢尾花数据集进行示例。

KNN算法原理

KNN算法的核心思想是“物以类聚”，通过计算待分类样本与训练集样本之间的距离来判断待分类样本的类别。具体步骤如下：
计算距离：选择合适的距离度量方法，例如欧几里得距离、曼哈顿距离等，计算待分类样本与训练集每个样本之间的距离。
选择k个近邻：根据计算出的距离，选择距离最近的k个样本作为待分类样本的k个近邻。
确定类别：统计这k个近邻中各个类别的样本个数，选择样本个数最多的类别作为待分类样本的类别。

距离度量方法的选择会影响算法的性能。常用的距离度量方法包括：
欧几里得距离(Euclidean Distance): 最常用的距离度量方法，计算公式为：$d(x, y) = \sqrt{\sum_{i=1}^{n}(x_i - y_i)^2}$
曼哈顿距离(Manhattan Distance): 也称为L1距离，计算公式为：$d(x, y) = \sum_{i=1}^{n}|x_i - y_i|$
闵可夫斯基距离(Minkowski Distance): 欧几里得距离和曼哈顿距离的推广，计算公式为：$d(x, y) = (\sum_{i=1}^{n}|x_i - y_i|^p)^{\frac{1}{p}}$，其中p为阶数，p=2为欧几里得距离，p=1为曼哈顿距离。

参数k的选择也很重要。k值过小，容易受到噪声数据的影响；k值过大，计算量会增加，并且可能会导致决策边界模糊。

Python代码实现

我们将使用scikit-learn库来实现KNN算法。首先，需要安装scikit-learn库：pip install scikit-learn```python
import numpy as np
from sklearn.model_selection import train_test_split
from import KNeighborsClassifier
from import accuracy_score
from import load_iris
from import StandardScaler
# 加载鸢尾花数据集
iris = load_iris()
X, y = ,
# 数据标准化
scaler = StandardScaler()
X = scaler.fit_transform(X)
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 创建KNN分类器
knn = KNeighborsClassifier(n_neighbors=3) # 设置k值为3
# 训练模型 (KNN没有显式的训练过程，只是加载数据)
(X_train, y_train)
# 进行预测
y_pred = (X_test)
# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")
# 预测单个样本
new_sample = ([[5.1, 3.5, 1.4, 0.2]]) # 需要进行标准化
new_sample_scaled = (new_sample)
predicted_class = (new_sample_scaled)
print(f"Predicted class for new sample: {predicted_class}")
```

这段代码首先加载了鸢尾花数据集，并进行了数据标准化(这步在KNN中通常很重要，因为不同的特征可能具有不同的尺度)。然后，将数据集划分为训练集和测试集。创建KNN分类器，设置k值为3，并使用训练集进行“训练”。接着，使用测试集进行预测，并计算模型的准确率。最后，演示了如何预测单个样本的类别，需要注意的是，新样本也需要进行标准化处理，才能保证与训练数据的一致性。

模型参数调优

KNN算法的主要参数是k值，选择合适的k值对模型性能至关重要。可以通过交叉验证等方法来选择最佳的k值。此外，距离度量方法的选择也会影响模型的性能，可以根据实际情况选择合适的距离度量方法。Scikit-learn 提供了多种方法来进行模型参数选择和评估，例如GridSearchCV。

KNN算法是一种简单易懂的机器学习算法，但其计算复杂度较高。本文详细介绍了KNN算法的原理和Python实现，并提供了完整的代码示例。通过理解算法原理和掌握代码实现，读者可以更好地应用KNN算法解决实际问题。记住，数据预处理，特别是特征缩放，在KNN算法中扮演着关键角色。

2025-08-20

上一篇：Python 整型与字符串的相互转换：详解方法、应用场景及性能分析

下一篇：深入解读Python源码：破解与分析技巧