机器学习的主要方法
- 监督学习
- 无监督学习
- 强化学习
监督学习
检测信用卡欺诈。学习算法会学习所有带有“正常” 或 “可疑”标记(向量Y)的信用卡交易(矩阵X),并最终产生一个决策模型(f函数),对未见过的交易打标记(“正常”或“可疑”)。
无监督学习
无监督学习算法所学的数据没有给定的结果标签Y,它主要学习数据结构,比如将相似的输入数据归入某个聚类。可以用于推荐系统,学习算法会发现购物者一同购买的相似商品,比如购买了书A的人也购买了书B。
强化学习
强化学习从完全不同的角度处理学习过程。强化学习的目标是找到最优策略,即映射函数,指定每个状态要采取的行为动作,而没有指导者明确告诉这样做是否会实现目标状态。强化学习的一个例子就是汽车自动驾驶程序。
机器学习应用流程
(1) 数据与问题定义
(2)数据收集
(3)数据预处理
(4)利用无监督学习与监督学习进行数据分析与建模
(5)模型评价
特性 | 称名 | 顺序 | 等距 | 等比 |
特性 | 称名 | 顺序 | 等距 | 等比 |
---|---|---|---|---|
频率分布 | √ | √ | √ | √ |
中位数和众数 | √ | √ | √ | |
值顺序已知 | √ | √ | √ | |
每个值之间的不同可以量化 | √ | √ | √ | |
值可以加减 | √ | √ | ||
值可以乘除 | √ | |||
拥有真0点 | √ |
获取数据的方式
- 维基百科
- 网页抓取
- IMDb
- Million Song Dataset
数据采集
陷阱 幸存者偏差
数据清洗
填充缺失值
剔除异常值
数据转换
数据归纳
奇异值分解(SVD)
主成分分析(PCA)
神经网络自动编码器(Neural nets auto encoders)
无监督学习
n维欧氏空间中,两个元素之间的距离基于元素在这个空间中的位置,常称为“p-范数距离”(p-norm distance)。常用的两个距离度量是L2与L1范数距离。
L2范数也叫欧氏距离,它是最常用的距离度量,用于度量二维空间中的两个元素相距多远。
它是两个元素在每个维度上差的平方和的平方根,计算公式如下:
注: 以上数据来自 Machine Learning in Java