机器学习入门策略
参考的路线:

统计学习方法
统计学习
1 2 3 4 5 6 7 8 9 10 11 12 13
| 1.统计学习:关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科 2.统计学习分类: 2.1 监督学习 2.2 非监督学习 2.3 半监督学习 2.4 强化学习 3.统计学习方法步骤: 3.1 得到一个有限的训练数据集合 3.2 确定包含所有可能的所有模型(学习模型的集合) 3.3 确定选择模型的标准(学习的策略) 3.4 实现求解最优模型的算法(学习的算法) 3.5 通过学习方法选择最优模型 3.6 利用最优模型对新数据进行预测或分析
|
监督学习
基本概念
1 2 3 4 5 6 7 8 9 10 11 12 13
| 1.输入/输出空间: 输入与输出所有可能取值的集合 1.1 可以是有限元素的集合 1.2 可以是整个欧式空间 1.3 可以是同一个空间,也可以是不同空间(输出空间<<输入空间) 2.每个具体的输入是一个实例(instance),是用特征向量表示。[所有特征向量存在的空间被称为特征空间] 3.监督学习类型: 3.1 回归问题:输入变量和输出变量均为连续变量的预测问题 3.2 分类问题:输出变量为有限个离散变量的预测问题 3.3 标注问题:输入变量与输出变量均为变量序列的预测问题 4.联合概率分布(P(X,Y)): 监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y) 5.假设空间: 模型输入由输入空间->输出空间的映射的集合
|
问题的形式化

统计学习三要素(方法=模型+策略+算法)
模型(条件概率分布/决策函数)
策略
算法
模型评估与模型选择
训练误差与测试误差
过拟合与模型选择
正则化与交叉验证
正则化
交叉验证
泛化能力
泛化误差
泛化误差上界
生成模型与判别模型
分类问题
标注问题
回归问题