date: 2017/10/27

Week6


改进方向


算法评估

参考:

《机器学习》(周志华) - Ch02模型估计与选择

《机器学习》(吴恩达) - 过拟合与正则化技术


过拟合

可以画出 曲线来判断是否过拟合,但一般特征有很多难以画图;

更常用的是用交叉验证的方式;


偏差(bias)问题 & 方差(variance)问题

训练、验证(测试)成本函数的误差error与多项式最高次d的关系——

ML-Andrew-4-2.png



正则化参数的自动选择

正则化技术可以缓解过拟合问题;

选择不同的 的拟合结果——

ML-Andrew-4-1.png


其参数 可以用交叉验证的方式逐一尝试并自动选择;

  1. 选择某个 ,最小化 ,得到
    比如可以取
  2. 用交叉验证计算各组的 ,选择使 最小的
  3. 使用参数 ,利用测试集计算 检验算法的泛化能力

ML-Andrew-4-3.png


学习曲线Learning Curves

学习曲线描述 误差error 与 样本容量m 的关系——


神经网络


改进方向的选择

通过绘制学习曲线的方式判断当前算法存在偏差问题还是方差问题;


误差分析

类偏斜(skewed classes)问题:样本失衡,有的类别样本数特别多,有的类别却非常少,尤其是异常分析问题;

【周志华】Ch02 模型估计与选择 - 查全率、查准率、F1 | Hey~YaHei! 


数据的重要性

传统机器学习更多研究的是算法上的改进,后来有人试着增加样本容量而非改进算法,发现一些在数据量比较小的时候的“劣等”算法,在数据量足够大的情况下能更“优等”算法达到一样甚至更高的准确率。

image.png