机器学习常见算法

回归算法(监督)
神经网络(监督)
SVM支持向量机(监督)
聚类算法(无监督)
降维算法(无监督)
推荐算法(特殊)
其它

回归

分类: 线性回归 和 逻辑回归

线性回归拟合一条最佳直线匹配数据,处理的是数值问题,最后预测出的结果是数字, 例如:房价.
逻辑回归属于分类算法, 预测的结果是离散的分类, 例如判断是否为垃圾邮件, 用户是否会点击广告.

数据挖掘流程(步骤)

数据导入(数据采集或爬取)
数据预处理 (ETL)
特征工程(特征就是属性)
拆分(拆分为:训练集检验集)
训练模型
评估模型
预测新数据

数据的属性类型

标称属性: 用于分类, 如: 红/绿/蓝

二元属性

对称: 两个取值价值对称, 如果: 男/女
非对称: 取值不对称, 如化验结果: 阳性/阴性

充数属性: 优良可差

数值属性:

区间标度: 没有倍率, 如果温度
比率标度: 有绝对0值

离散属性: 有限或者无限可数, 如:整数

连续属性: 实数, 连续

数据统计描述

中心趋势度量: 均值中位数众数中列数

(算术)均值: 平均值
加权算术均值: w为权重值(贡献率)
截尾均值: 丢弃高低极端值后的均值
中位数: 是有序数的中间值. 如果数列为奇数取中间值, 如果为偶数取中间两个数值的平均值
众数: 出现频率最高的值, 如果有多个众数可以是双峰三峰
- mean-mode=3X(mean-media) #mode:众数 mean:均值 media: 中位数
对称数据: mean = mode = media

正倾斜数据: mode < media (即 media < mean)

负倾斜数据: mode > media (即 media > mean)

数据散布度量: 极差四分位数四分位数极差方差五数概括盒图

极差: 一组数值, 最大值和最小值之差
分位数: 所有数据按序排列, 指定百分比位置对应的值
四分位: 3个K分点(Q1:25% Q2:50% Q3:75%)把数据四等分
四分位极差(IQR): Q3-Q1
- 超过Q3或低于Q1的1.5xIQR的数据,可能是离群点.
五数概括: (min, Q1, Median, Q3, Max)
- 盒图表示:
方差:
标准差: 对方差开平方

基本统计描述的图形显示: 分位数图分位数-分位数图直方图散点图

数据邻近性度量

相似性(similarity):

取值为[0,1], 取值越大,越似度越高, 取值越小相似度越底

相异性(Dissimilarity)

最小值取值为0, 最大值不一样.

最值越大,越不同, 越小越相似

数据矩阵:

X代表第一个数据, 一行是一个对象, 一列是一类属性.

相异性矩阵:

d代表是两个对象的相异性, 如d(2,1)是第2个对象和第1个对象的相异性.

###相异性计算

标称属性邻近性计算

d: 相异性 sim:相似性

m: 对象匹配数目(i,j取值相同的属性数)

p: 对象的属性总数

二元属性邻近性计算

数值属性相异性计算

闵可夫斯基距离

h=1: 曼哈顿距离 (城市版块距离)

h=2: 欧几里德距离 (直线距离)

h$\rightarrow$ $+\infty$: 上确界距离. 用来找出两个对象的属性中最大的距离

序数属性邻近性试题

序数属性：值之间是有意义的序或者排位。
属性的相异性计算步骤如下：
- 第i个对象的f值为Xif，属性有m个有序的状态，表示排位。用对应的排位取代Xif。

使用欧几里德距离求相异性
- d(i,j)= $\sqrt[2]{ (|zif - zjf|)^2 }$
相似性为:
- sim(i,j) = 1 - d(i,j)

混合属性的邻近性

余弦相似性

可以用于比较两个文档词频相似度

数据预处理

数据质量含义

准确性
完整性
一致性
时效性
可信性
可解释性

数据清理

补充缺失数据
- 忽略元组(如果发现重要属性缺失, 该元组(整条数据)整个可以忽略)
- 人工填写缺失值(量小可行,量大不靠谱)
- 使用一个全局常量填充缺失值
- 使用属性的中心度量填充缺失值
- 使用给定元组同一类的样本属性均值或中位数填充
- 使用最可能的值填充空缺值
平滑噪声数据
- 分箱: 箱内均值平滑箱内边界平滑
- 回归: 拟合直线, 重新计算噪声点, 拉回直线
- 聚类:
识别或删除离群点 *
解决不一致

数据集成

集成多个数据库,数据立方或文件
- 实体识别: 从多个数据源中识别出等价实体(如: 一个库的"Customer_ID"和另一个库的Customer_number)
- 冗余和相关分析: 属性之间如果有推导关系, 为了节省存储和计算,可以去重.
  - 标称数据的$x^2$ 相关检验.
  - $$

数据归约

简化数据

维归约: 删除不重要的属性
- 小波变换,
- 主成分分析,
- 属性子集选择
数量归约: 规模较小的数据表示,替换原有数据
- 最小二乘法

##数据变换

规范化和聚集

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

机器学习常见算法

回归

数据挖掘流程(步骤)

数据的属性类型

数据统计描述

数据邻近性度量

数据预处理

数据清理

数据集成

数据归约

FilesExpand file tree

algorithm.md

Latest commit

History

algorithm.md

File metadata and controls

机器学习常见算法

回归

数据挖掘流程(步骤)

数据的属性类型

数据统计描述

数据邻近性度量

数据预处理

数据清理

数据集成

数据归约