方法=模型+策略+算法

1模型

要学习的条件概率分布或决策函数。
模型的假设空间包含所有可能的条件概率分布或决策函数。

2策略

损失函数（一次预测的好坏）和风险函数（平均意义下模型预测的好坏）

2.1 损失函数

0-1损失函数
平方损失函数
绝对损失函数
对数损失函数/对数似然损失函数

2.2 风险函数

遵循联合分布P(X,Y)，损失函数的期望：
0-1
这是理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失，称为风险函数或期望损失。
可以发现由于联合分布函数的未知，期望风险是否为最小也是未知的。
模型f(X)关于训练数据集的平均损失称为经验风险或者经验损失：
0-1
期望风险是模型关于联合分布的期望损失，经验风险是模型关于训练样本集的平均损失。根据大数定律，当样本N趋于正无穷时，经验风险趋于期望风险。
因此，期望风险可以通过经验风险来预测或者说矫正。

2.3 经验风险最小化与结构风险最小化

1.经验风险最小化（ERM）
认为经验风险最小的模型就是最优的模型，极大似然估计就是一个例子，当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。
0-1
2.结构风险最小化（SRM）
当样本容量过小，ERM的效果就未必很好，会产生过拟合现象。
结构风险最小化等价于正则化
0-1
其中，J(f)为模型的复杂度，这意味着结构风险小需要经验风险和模型复杂度同时小。
贝叶斯估计中的最大后验概率估计（MAP）就是一个例子（条件概率分布，对数损失函数，模型复杂度由模型的先验概率表示）

3 算法

学习模型的具体计算方法。根据学习策略，从假设空间中选取最优模型，并考虑使用什么方法求解最优模型。