Skip to content

Latest commit

 

History

History
242 lines (136 loc) · 6.19 KB

File metadata and controls

242 lines (136 loc) · 6.19 KB

机器学习常见算法

  • 回归算法(监督)
  • 神经网络(监督)
  • SVM支持向量机(监督)
  • 聚类算法(无监督)
  • 降维算法(无监督)
  • 推荐算法(特殊)
  • 其它

回归

分类: 线性回归逻辑回归

  • 线性回归拟合一条最佳直线匹配数据,处理的是数值问题,最后预测出的结果是数字, 例如:房价.
  • 逻辑回归属于分类算法, 预测的结果是离散的分类, 例如判断是否为垃圾邮件, 用户是否会点击广告.

数据挖掘流程(步骤)

  • 数据导入(数据采集或爬取)
  • 数据预处理 (ETL)
  • 特征工程(特征就是属性)
  • 拆分(拆分为:训练集 检验集)
  • 训练模型
  • 评估模型
  • 预测新数据

数据的属性类型

标称属性: 用于分类, 如: 红/绿/蓝

二元属性

  • 对称: 两个取值价值对称, 如果: 男/女
  • 非对称: 取值不对称, 如化验结果: 阳性/阴性

充数属性: 优良可差

数值属性:

  • 区间标度: 没有倍率, 如果温度
  • 比率标度: 有绝对0值

离散属性: 有限或者无限可数, 如:整数

连续属性: 实数, 连续

数据统计描述

中心趋势度量: 均值 中位数 众数 中列数

  • (算术)均值: 平均值

  • 加权算术均值: w为权重值(贡献率)

  • 截尾均值: 丢弃高低极端值后的均值

  • 中位数: 是有序数的中间值. 如果数列为奇数取中间值, 如果为偶数取中间两个数值的平均值

  • 众数: 出现频率最高的值, 如果有多个众数可以是双峰 三峰

    • mean-mode=3X(mean-media) #mode:众数 mean:均值 media: 中位数

    对称数据: mean = mode = media

    正倾斜数据: mode < media (即 media < mean)

    负倾斜数据: mode > media (即 media > mean)

数据散布度量: 极差 四分位数 四分位数极差 方差 五数概括 盒图

  • 极差: 一组数值, 最大值和最小值之差
  • 分位数: 所有数据按序排列, 指定百分比位置对应的值
  • 四分位: 3个K分点(Q1:25% Q2:50% Q3:75%)把数据四等分
  • 四分位极差(IQR): Q3-Q1
    • 超过Q3或低于Q1的1.5xIQR的数据,可能是离群点.
  • 五数概括: (min, Q1, Median, Q3, Max)
    • 盒图表示:
  • 方差:
  • 标准差: 对方差开平方

基本统计描述的图形显示: 分位数图 分位数-分位数图 直方图 散点图

数据邻近性度量

相似性(similarity):

取值为[0,1], 取值越大,越似度越高, 取值越小相似度越底

相异性(Dissimilarity)

最小值取值为0, 最大值不一样.

最值越大,越不同, 越小越相似

数据矩阵:

X代表第一个数据, 一行是一个对象, 一列是一类属性.

image-20190116185201847

相异性矩阵:

d代表是两个对象的相异性, 如d(2,1)是第2个对象和第1个对象的相异性.

image-20190116185232708

###相异性计算

标称属性邻近性计算

d: 相异性 sim:相似性

image-20190116185609321

m: 对象匹配数目(i,j取值相同的属性数)

p: 对象的属性总数

二元属性邻近性计算

image-20190116192202184

数值属性相异性计算

闵可夫斯基距离

image-20190116193147778

h=1: 曼哈顿距离 (城市版块距离)

image-20190116200525409

h=2: 欧几里德距离 (直线距离)

image-20190116200515367

h$\rightarrow$ $+\infty$: 上确界距离. 用来找出两个对象的属性中最大的距离

image-20190116195927732

序数属性邻近性试题

  • 序数属性:值之间是有意义的序或者排位。

  • 属性的相异性计算步骤如下:

    • 第i个对象的f值为Xif,属性有m个有序的状态,表示排位。用对应的排位image-20190116202541166取代Xif

image-20190116201958481

  • 使用欧几里德距离求相异性
    • d(i,j)= $\sqrt[2]{ (|zif - zjf|)^2 }​$
  • 相似性为:
    • sim(i,j) = 1 - d(i,j)

混合属性的邻近性

image-20190116205417799

余弦相似性

可以用于比较两个文档词频相似度

数据预处理

数据质量含义

  • 准确性
  • 完整性
  • 一致性
  • 时效性
  • 可信性
  • 可解释性

数据清理

  • 补充缺失数据
    • 忽略元组(如果发现重要属性缺失, 该元组(整条数据)整个可以忽略)
    • 人工填写缺失值(量小可行,量大不靠谱)
    • 使用一个全局常量填充缺失值
    • 使用属性的中心度量填充缺失值
    • 使用给定元组同一类的样本属性均值或中位数填充
    • 使用最可能的值填充空缺值
  • 平滑噪声数据
    • 分箱: 箱内均值平滑 箱内边界平滑
    • 回归: 拟合直线, 重新计算噪声点, 拉回直线
    • 聚类:
  • 识别或删除离群点 *
  • 解决不一致

数据集成

  • 集成多个数据库,数据立方或文件
    • 实体识别: 从多个数据源中识别出等价实体(如: 一个库的"Customer_ID"和另一个库的Customer_number)
    • 冗余和相关分析: 属性之间如果有推导关系, 为了节省存储和计算,可以去重.
      • 标称数据的$x^2$ 相关检验.
      • $$

数据归约

简化数据

  • 维归约: 删除不重要的属性
    • 小波变换,
    • 主成分分析,
    • 属性子集选择
  • 数量归约: 规模较小的数据表示,替换原有数据
    • 最小二乘法

##数据变换

规范化和聚集