机器学习（3）——K-近邻算法改进约会网站的配对效果实例

华南师范大学

705

2020-06-22 15:06:04

2020-07-17

基本概念

利用K-近邻算法对约会网站中匹配对象进行快速归类。

基本思路步骤:

收集数据：提供文本文件；

准备数据：使用Python解析文本文件；

分析数据：使用Matplotlib画二维扩散图；

训练算法：设计分类算法；

测试算法：使用部分数据作为测试样本，观测错误率；

使用算法：产生简单的程序，输入特征数据判断对象是否为喜欢类型。

解析文本数据

利用NumPy库对文本文件进行处理解析，编写文本读取文件程序并验证。

文本处理方法

进行验证

分析数据

使用Matplotlib制作数据的散点图，包括原始数据散点图（2&3 ）和加入色彩与信息的数据散点图。

函数代码

散点图效果图如下

进行比对分析，相比于取2&3、1&2，1&3可以更好的展示效果进行分类。

归一化处理

由于特征值之间数值差距太大，从而导致数值距离计算中比重不同，导致每个特征值对计算结果影响不同，所以进行归一化处理，提高准确率。

归一化特征值程序

测试算法

编写完整程序进行分类器验证

测试结果

分类处理约会数据集的数据错误率是5%,满足要求

涉及的Python函数功能介绍

1、Python x[:,0]的含义

X[:,0]为numpy中数组的一种方法，代表的是对一个二维的数组，取该二维数组第一维中的所有数据，简单表述就是取每行的第0个数据。

举例说明：

结果如下：

2、Python中numpy数组切片

3、scatter()函数作用

4、Python中for i in range ()作用

登录用户可以查看和发表评论，请前往登录或注册。