机器学习

July 5, 2020

outline
- 第1章绪论
  - 1.1 引言 1
  - 1.2 基本术 2
  - 1.3 假设空间 4
  - 1.4 归纳偏好 6
  - 1.5 发展历程 10
  - 1.6 应用现状 13
  - 1.7 阅读材料 16
  - 习题 19
  - 参考文献 20
  - 休息一会儿 22
- 第2章模型评估与选择
  - 20200715 阅读
  - 2.1 经验误差与过拟合
    - 训练误差/经验误差，泛化无戳啊，过拟合 overfitting，欠拟合 underfitting
    - 模型选择
  - 2.2 评估方法
    - 训练集，测试集，划分方法
      - 留出法 hold-out
      - 交叉验证法 cross validation 特例留一法 leave-one-out
        
        【机器学习】Cross-Validation（交叉验证）详解 https://zhuanlan.zhihu.com/p/24825503
      - 自助法 Bootstrapping 又被称为可重复采样/有放回采样，适合样本数较小场景
    - 调参与最终模型，验证集
      - validation set 又被称为 dev set 验证集 dev set=development set
      - 用于训练过程中，指导调整超参数的样本集，使用起来类似于测试集以前机器学习数据量少，超参数少的时候可能是没有这个样本集的，只有训练集（train set）和测试集（test set）。这时测试集作为验证集使用现在数据量多了，可以单独分出一部分样本作为 dev set，用于超参数调优，模型经过训练集训练，和验证集调优，然后交给测试集测试性能
  - 2.3 性能度量
    - 2.3.1 错误率与精度 error acc
    - 2.3.2 查准率precision、查全率recall与F1
      - Precision 与 Recall 是矛盾的 PR曲线 Precision-Recall 曲线
      - 平衡点 Break-Even Point，查准率=查全率=BEP
      - BEP过于简化，更常用的度量是F1 $$1=\frac{2 \times P \times R}{P+R} = \frac{2 \times TP}{样例总数+TP-TN}$$
      - F1 的推广形式 $$F_{\beta}$$
      - 宏查准率 macro-P 微查准率 micro-P
    - 2.3.3 [[ROC]]与AUC
      - 两种曲线的理解可以参考 https://zhuanlan.zhihu.com/p/92218196
    - 2.3.4 代价敏感错误率与代价曲线unequal cost, cost curve
  - 2.4 比较检验
    - 2.4.1 假设检验 hypothesis test
    - 2.4.2 交叉验证t检验
    - 2.4.3 McNemar检验
    - 2.4.4 Friedman检验与后续检验
  - 2.5 偏差与方差
    - bias-variance decomposition $$E(f;D)=bias^2(x) + var(x) + \epsilon^2$$
    - bias-variance dilemma
  - 2.6 阅读材料
  - 习题
  - 休息一会儿
    - [[William Gosset]], Student’s test, Karl Pearson
- 第3章线性模型
  - 3.1 基本形式 53
  - 3.2 线性回归 53
  - 3.3 对数几率回归 57
  - 3.4 线性判别分析 60
  - 3.5 多分类学习 63
  - 3.6 类别不平衡问题 66
  - 3.7 阅读材料 67
  - 习题 69
  - 参考文献 70
  - 休息一会儿 72
- 第4章决策树
  - 4.1 基本流程 73
  - 4.2 划分选择 75
  - 4.2.1 信息增益 75
  - 4.2.2 增益率 77
  - 4.2.3 基尼指数 79
  - 4.3 剪枝处理 79
  - 4.3.1 预剪枝 80
  - 4.3.2 后剪枝 82
  - 4.4 连续与缺失值 83
  - 4.4.1 连续值处理 83
  - 4.4.2 缺失值处理 85
  - 4.5 多变量决策树 88
  - 4.6 阅读材料 92
  - 习题 93
  - 参考文献 94
  - 休息一会儿 95
- 第5章神经网络
  - 5.1 神经元模型 97
  - 5.2 感知机与多层网络 98
  - 5.3 误差逆传播算法 101
  - 5.4 全局最小与局部极小 106
  - 5.5 其他常见神经网络 108
  - 5.5.1 RBF网络 108
  - 5.5.2 ART网络 108
  - 5.5.3 SOM网络 109
  - 5.5.4 级联相关网络 110
  - 5.5.5 Elman网络 111
  - 5.5.6 Boltzmann机 111
  - 5.6 深度学习 113
  - 5.7 阅读材料 115
  - 习题 116
  - 参考文献 117
  - 休息一会儿 120
- 第6章支持向量机
  - 6.1 间隔与支持向量 121
  - 6.2 对偶问题 123
  - 6.3 核函数 126
  - 6.4 软间隔与正则化 129
  - 6.5 支持向量回归 133
  - 6.6 核方法 137
  - 6.7 阅读材料 139
  - 习题 141
  - 参考文献 142
  - 休息一会儿 145
- 第7章贝叶斯分类器
  - 7.1 贝叶斯决策论 - 7.2 极大似然估计
  - 7.3 朴素贝叶斯分类器
  - 7.4 半朴素贝叶斯分类器
  - 7.5 贝叶斯网
    - 7.5.1 结构
    - 7.5.2 学习
    - 7.5.3 推断
  - 7.6 EM算法
  - 7.7 阅读材料
  - 习题
  - 参考文献
  - 休息一会儿
- 第8章集成学习
  - 8.1 个体与集成 171
  - 8.2 Boosting 173
  - 8.3 Bagging与随机森林 178
  - 8.3.1 Bagging 178
  - 8.3.2 随机森林 179
  - 8.4 结合策略 181
  - 8.4.1 平均法 181
  - 8.4.2 投票法 182
  - 8.4.3 学习法 183
  - 8.5 多样性 185
  - 8.5.1 误差–分歧分解 185
  - 8.5.2 多样性度量 186
  - 8.5.3 多样性增强 188
  - 8.6 阅读材料 190
  - 习题 192
  - 参考文献 193
  - 休息一会儿 196
- 第9章聚类
  - 9.1 聚类任务 197
  - 9.2 性能度量 197
  - 9.3 距离计算 199
  - 9.4 原型聚类 202
  - 9.4.1 k均值算法 202
  - 9.4.2 学习向量量化 204
  - 9.4.3 高斯混合聚类 206
  - 9.5 密度聚类 211
  - 9.6 层次聚类 214
  - 9.7 阅读材料 217
  - 习题 220
  - 参考文献 221
  - 休息一会儿 224
- 第10章降维与度量学习
  - 10.1 k近邻学习
    - lazy learning (contrast to eager learning)
  - 10.2 低维嵌入 [[MDS]]
  - 10.3 主成分分析 PCA(Principal Components Analysis) [[PCA]]
  - 10.4 核化线性降维
  - 10.5 流形学习 [[Manifold]]
    - 10.5.1 等度量映射 Isometric Mapping, Isomap
      - 保持近邻样本之间的距离
      - 计算测地线距离
    - 10.5.2 局部线性嵌入 Locally Linear Emberdding, LLE
      - 保持邻域内样本之间的线性关系
  - 10.6 度量学习
  - 10.7 阅读材料
  - 习题
  - 参考文献
  - 休息一会儿
- 第11章特征选择与稀疏学习
  - 11.1 子集搜索与评价 247
  - 11.2 过滤式选择 249
  - 11.3 包裹式选择 250
  - 11.4 嵌入式选择与L$_1$正则化 252
  - 11.5 稀疏表示与字典学习 254
  - 11.6 压缩感知 257
  - 11.7 阅读材料 260
  - 习题 262
  - 参考文献 263
  - 休息一会儿 266
- 第12章计算学习理论
  - 12.1 基础知识 267
  - 12.2 PAC学习 268
  - 12.3 有限假设空间 270
  - 12.3.1 可分情形 270
  - 12.3.2 不可分情形 272
  - 12.4 VC维 273
  - 12.5 Rademacher复杂度 279
  - 12.6 稳定性 284
  - 12.7 阅读材料 287
  - 习题 289
  - 参考文献 290
  - 休息一会儿：计算学习理论之莱斯利维利昂特
- 第13章半监督学习
  - 13.1 未标记样本 293
  - 13.2 生成式方法 295
  - 13.3 半监督SVM 298
  - 13.4 图半监督学习 300
  - 13.5 基于分歧的方法 304
  - 13.6 半监督聚类 307
  - 13.7 阅读材料 311
  - 习题 313
  - 参考文献 314
  - 休息一会儿：黎曼和流形的故事
    - [[Manifold]] [[Bernhard Riemann]]
- 第14章概率图模型
  - 14.1 隐马尔可夫模型 319
  - 14.2 马尔可夫随机场 322
  - 14.3 条件随机场 CRF
  - 14.4 学习与推断 328
  - 14.4.1 变量消去 328
  - 14.4.2 信念传播 330
  - 14.5 近似推断 331
  - 14.5.1 MCMC采样 331
  - 14.5.2 变分推断 334
  - 14.6 话题模型 337
  - 14.7 阅读材料 339
  - 习题 341
  - 参考文献 342
  - 休息一会儿 345
- 第15章规则学习
  - 15.1 基本概念 347
  - 15.2 序贯覆盖 349
  - 15.3 剪枝优化 352
  - 15.4 一阶规则学习 354
  - 15.5 归纳逻辑程序设计 357
  - 15.5.1 最小一般泛化 358
  - 15.5.2 逆归结 359
  - 15.6 阅读材料 363
  - 习题 365
  - 参考文献 366
  - 休息一会儿 369
- 第16章强化学习
  - 16.1 任务与奖赏 371
  - 16.2 $K$-摇臂赌博机 373
  - 16.2.1 探索与利用 373
  - 16.2.2 $\epsilon $-贪心 374
  - 16.2.3 Softmax 375
  - 16.3 有模型学习 377
  - 16.3.1 策略评估 377
  - 16.3.2 策略改进 379
  - 16.3.3 策略迭代与值迭代 381
  - 16.4 免模型学习 382
  - 16.4.1 蒙特卡罗强化学习 383
  - 16.4.2 时序差分学习 386
  - 16.5 值函数近似 388
  - 16.6 模仿学习 390
  - 16.6.1 直接模仿学习 391
  - 16.6.2 逆强化学习 391
  - 16.7 阅读材料 393
  - 习题 394
  - 参考文献 395
  - 休息一会儿 397
- 附录
  - A 矩阵 399
  - B 优化 403
  - C 概率分布 409
- 后记
- 索引