Machine-Learning-in-Java-1

检测信用卡欺诈。学习算法会学习所有带有“正常” 或 “可疑”标记（向量Y）的信用卡交易（矩阵X），并最终产生一个决策模型（f函数），对未见过的交易打标记（“正常”或“可疑”）。

无监督学习算法所学的数据没有给定的结果标签Y，它主要学习数据结构，比如将相似的输入数据归入某个聚类。可以用于推荐系统，学习算法会发现购物者一同购买的相似商品，比如购买了书A的人也购买了书B。

强化学习从完全不同的角度处理学习过程。强化学习的目标是找到最优策略，即映射函数，指定每个状态要采取的行为动作，而没有指导者明确告诉这样做是否会实现目标状态。强化学习的一个例子就是汽车自动驾驶程序。

（1）数据与问题定义
（2）数据收集
（3）数据预处理
（4）利用无监督学习与监督学习进行数据分析与建模
（5）模型评价

特性 | 称名 | 顺序 | 等距 | 等比 |

陷阱幸存者偏差
数据清洗
填充缺失值
剔除异常值
数据转换

数据归纳

奇异值分解（SVD）
主成分分析（PCA）
神经网络自动编码器（Neural nets auto encoders）

n维欧氏空间中，两个元素之间的距离基于元素在这个空间中的位置，常称为“p-范数距离”(p-norm distance)。常用的两个距离度量是L2与L1范数距离。

L2范数也叫欧氏距离，它是最常用的距离度量，用于度量二维空间中的两个元素相距多远。
它是两个元素在每个维度上差的平方和的平方根，计算公式如下:

注：以上数据来自 Machine Learning in Java