- 回归算法(监督)
- 神经网络(监督)
- SVM支持向量机(监督)
- 聚类算法(无监督)
- 降维算法(无监督)
- 推荐算法(特殊)
- 其它
分类: 线性回归 和 逻辑回归
- 线性回归拟合一条最佳直线匹配数据,处理的是数值问题,最后预测出的结果是数字, 例如:房价.
- 逻辑回归属于分类算法, 预测的结果是离散的分类, 例如判断是否为垃圾邮件, 用户是否会点击广告.
- 数据导入(数据采集或爬取)
- 数据预处理 (ETL)
- 特征工程(特征就是属性)
- 拆分(拆分为:训练集 检验集)
- 训练模型
- 评估模型
- 预测新数据
标称属性: 用于分类, 如: 红/绿/蓝
二元属性
- 对称: 两个取值价值对称, 如果: 男/女
- 非对称: 取值不对称, 如化验结果: 阳性/阴性
充数属性: 优良可差
数值属性:
- 区间标度: 没有倍率, 如果温度
- 比率标度: 有绝对0值
离散属性: 有限或者无限可数, 如:整数
连续属性: 实数, 连续
中心趋势度量: 均值 中位数 众数 中列数
-
(算术)均值: 平均值
-
加权算术均值: w为权重值(贡献率)
-
截尾均值: 丢弃高低极端值后的均值
-
中位数: 是有序数的中间值. 如果数列为奇数取中间值, 如果为偶数取中间两个数值的平均值
-
众数: 出现频率最高的值, 如果有多个众数可以是双峰 三峰
- mean-mode=3X(mean-media) #mode:众数 mean:均值 media: 中位数
对称数据: mean = mode = media
正倾斜数据: mode < media (即 media < mean)
负倾斜数据: mode > media (即 media > mean)
数据散布度量: 极差 四分位数 四分位数极差 方差 五数概括 盒图
- 极差: 一组数值, 最大值和最小值之差
- 分位数: 所有数据按序排列, 指定百分比位置对应的值
- 四分位: 3个K分点(Q1:25% Q2:50% Q3:75%)把数据四等分
- 四分位极差(IQR): Q3-Q1
- 超过Q3或低于Q1的1.5xIQR的数据,可能是离群点.
- 五数概括: (min, Q1, Median, Q3, Max)
- 盒图表示:
- 方差:
- 标准差: 对方差开平方
基本统计描述的图形显示: 分位数图 分位数-分位数图 直方图 散点图
相似性(similarity):
取值为[0,1], 取值越大,越似度越高, 取值越小相似度越底
相异性(Dissimilarity)
最小值取值为0, 最大值不一样.
最值越大,越不同, 越小越相似
数据矩阵:
X代表第一个数据, 一行是一个对象, 一列是一类属性.
相异性矩阵:
d代表是两个对象的相异性, 如d(2,1)是第2个对象和第1个对象的相异性.
###相异性计算
标称属性邻近性计算
d: 相异性 sim:相似性
m: 对象匹配数目(i,j取值相同的属性数)
p: 对象的属性总数
二元属性邻近性计算
数值属性相异性计算
闵可夫斯基距离
h=1: 曼哈顿距离 (城市版块距离)
h=2: 欧几里德距离 (直线距离)
h$\rightarrow$
序数属性邻近性试题
- 使用欧几里德距离求相异性
- d(i,j)= $\sqrt[2]{ (|z
if- zjf|)^2 }$
- d(i,j)= $\sqrt[2]{ (|z
- 相似性为:
- sim(i,j) = 1 - d(i,j)
混合属性的邻近性
余弦相似性
可以用于比较两个文档词频相似度
数据质量含义
- 准确性
- 完整性
- 一致性
- 时效性
- 可信性
- 可解释性
- 补充缺失数据
- 忽略元组(如果发现重要属性缺失, 该元组(整条数据)整个可以忽略)
- 人工填写缺失值(量小可行,量大不靠谱)
- 使用一个全局常量填充缺失值
- 使用属性的中心度量填充缺失值
- 使用给定元组同一类的样本属性均值或中位数填充
- 使用最可能的值填充空缺值
- 平滑噪声数据
- 分箱: 箱内均值平滑 箱内边界平滑
- 回归: 拟合直线, 重新计算噪声点, 拉回直线
- 聚类:
- 识别或删除离群点 *
- 解决不一致
- 集成多个数据库,数据立方或文件
- 实体识别: 从多个数据源中识别出等价实体(如: 一个库的"Customer_ID"和另一个库的Customer_number)
- 冗余和相关分析: 属性之间如果有推导关系, 为了节省存储和计算,可以去重.
- 标称数据的$x^2$ 相关检验.
- $$
简化数据
- 维归约: 删除不重要的属性
- 小波变换,
- 主成分分析,
- 属性子集选择
- 数量归约: 规模较小的数据表示,替换原有数据
- 最小二乘法
##数据变换
规范化和聚集













