0%

Machine-Learning-in-Java-1

机器学习的主要方法

  • 监督学习
  • 无监督学习
  • 强化学习

监督学习

检测信用卡欺诈。学习算法会学习所有带有“正常” 或 “可疑”标记(向量Y)的信用卡交易(矩阵X),并最终产生一个决策模型(f函数),对未见过的交易打标记(“正常”或“可疑”)。

无监督学习

无监督学习算法所学的数据没有给定的结果标签Y,它主要学习数据结构,比如将相似的输入数据归入某个聚类。可以用于推荐系统,学习算法会发现购物者一同购买的相似商品,比如购买了书A的人也购买了书B。

强化学习

强化学习从完全不同的角度处理学习过程。强化学习的目标是找到最优策略,即映射函数,指定每个状态要采取的行为动作,而没有指导者明确告诉这样做是否会实现目标状态。强化学习的一个例子就是汽车自动驾驶程序。

机器学习应用流程

(1) 数据与问题定义
(2)数据收集
(3)数据预处理
(4)利用无监督学习与监督学习进行数据分析与建模
(5)模型评价

特性 | 称名 | 顺序 | 等距 | 等比 |

特性 称名 顺序 等距 等比
频率分布
中位数和众数
值顺序已知
每个值之间的不同可以量化
值可以加减
值可以乘除
拥有真0点

获取数据的方式

  • 维基百科
  • 网页抓取
  • IMDb
  • Million Song Dataset

数据采集

陷阱 幸存者偏差
数据清洗
填充缺失值
剔除异常值
数据转换

数据归纳

奇异值分解(SVD)
主成分分析(PCA)
神经网络自动编码器(Neural nets auto encoders)

无监督学习

n维欧氏空间中,两个元素之间的距离基于元素在这个空间中的位置,常称为“p-范数距离”(p-norm distance)。常用的两个距离度量是L2与L1范数距离。

L2范数也叫欧氏距离,它是最常用的距离度量,用于度量二维空间中的两个元素相距多远。
它是两个元素在每个维度上差的平方和的平方根,计算公式如下:

注: 以上数据来自 Machine Learning in Java