赤裸裸的统计学 | WOGONG

赤裸裸的统计学

赤裸裸的统计学

July 24, 2020

https://book.douban.com/subject/25717380/
英文书名 Naked Statistics: Stripping the Dread from the Data
非常通俗的一本读物，统计学在数据/AI时代的重要地位日益凸显，读完可以补完一下这部分的常识。当年实在是没有学明白概率论与数理统计，从认识世界的角度来看，这比微积分有用多了。
Outline
- 引言我为什么憎恶微积分却偏爱统计学？
  - 关键在于有没有直觉的关于意义的解释
  - 统计学就像是一种高智商武器：正确地使用它能够帮助我们，但错误地使用它也会产生灾难性的后果
- 第1章统计学是大数据时代最炙手可热的学问
  - 基尼系数是否是衡量社会分配公平程度最完美的指标？视频网站是如何知道你喜欢的电影类型的？祈祷真的能让病人的术后康复状况改善吗？是什么导致自闭症发病率一直走高？哪些人最有可能成为恐怖分子？
  - 描述性数据——击球率与大学学分
  - 用抽样数据来解决大问题
  - 概率、风险与考试作弊
  - 哪些人最有可能成为恐怖分子？
    - 美剧犯罪现场调查：回归分析
  - 统计数字背后的谎言与真相
  - 学习统计学的意义
    - 总结大量的数据。做出正确的决定。回答重要的社会问题。认识并运用那些能够改善我们日常做法的模型，卖更多的尿片、抓更多的罪犯……识别作弊者，让作恶者受到法律的审判。评价政策、项目、药品、医疗程序和其他创新的有效性。揪出那些运用相同的统计学手段干坏事的败类。
- 第2章描述统计学
  - 你一直想买的一条连衣裙，商场售价为4999元，先降价25%后再提价25%，你能算出这条连衣裙的最终售价是多少吗？
  - 绝对值差异与相对值差异，百分数
  - 百分差与百分比
- 第3章统计数字会撒谎
  - 1950年人们的平均时薪是1美元，2012年人们的平均时薪是5美元，你觉得我们的工资水平涨了吗？
  - 马克·吐温有一句名言是这样说的，“谎言有三种：谎言、该死的谎言，以及统计学”。
- 第4章相关性与相关系数
  - 视频网站根本不知道我是谁，但它又是怎么知道我喜欢看人物纪录片而不是电视连续剧、动作片或科幻片的？
  - 相关系数计算公式 $$\frac{cov(X,Y)}{\sigma_X \sigma_Y}$$ $$cov(X,Y)=E( (X-E(X)) (Y-E(Y)))$$
- 第5章概率与期望值
  - 买福利彩票，去赌场豪赌、投资股票或期货，哪种方式让你跻身《福布斯》富豪排行榜的可能性更大？
  - 关于保险：承担不起的后果，对于承担得起的可以不用买。
- 第6章蒙提•霍尔悖论
  - 在《让我们做个交易》节目中，主持人打开的3号门后面是一头羊，在剩下的1号门和2号门中必定有一扇门后面是汽车，你应该如何选择才能中大奖？
  - 三门问题
- 第7章黑天鹅事件
  - 1%的小概率风险如何在2008年成为击垮美国华尔街的“黑天鹅”，并毁了全球金融体系。
  - 2008金融危机
    - 第一，模型构建的概率基础参照的是过去的市场行为，然而金融市场和啤酒盲品会不一样，前者的未来不一定是历史的重复，没有任何的理论证据可以保证1980～2005年间的市场动态是2005年之后市场表现的最佳预测参照物。
    - 第二，即使通过基本数据，我们能够借助VaR准确地预测未来风险，这99%的保证依然存在着失效的危险，因为真正把事情搞砸的正是剩下的1%。
  - 华尔街的数量分析专家们犯了3个最基本的错误
    - 第一，他们混淆了“精确”和“准确”的概念。
    - 第二，他们对基础概率的估算方式是错误的。
    - 第三，公司忽略了“尾部风险”
  - 常见的与概率有关的错误、误解和道德困境
    - 想当然地认为事件之间不存在联系
    - 对两个事件的统计独立一无所知
    - 成群病例的发生
    - 检方谬误
    - 回归平均数（或趋均数回归）
    - 统计性歧视
- 第8章数据与偏见
  - 2012年，《科学》杂志刊登了一项惊人的发现：在求偶期多次遭受雌性果蝇冷落的雄性果蝇会“借酒消愁”。那么，这些果蝇是如何一醉方休的？
  - 纵向研究，就是对大量调查对象一生中不同时间点的信息进行收集，比如每两年进行一次采访。对需要几年甚至几十年时间去求证的因果关系的探索极具价值。
  - 横向研究：在同一时刻收集到的数据
  - 常见的偏见
    - 选择性偏见：样本选择有偏见
    - 发表性偏见：有效果的结果才会得到发表，无效果的结果不会得到发表
    - 记忆性偏见：记忆是不可靠的
    - 幸存者偏见
    - 健康用户偏见：做到xx的人，可能本来就有更好的自控力，相关而不是因果
- 第9章中心极限定理
  - 一辆坐满肥胖乘客的抛锚客车停在你家附近的路上，你推断一下，它的目的地是马拉松比赛场地，还是国际香肠节展厅？
  - Central limit theorem: $$\sqrt{n} \frac{\bar{X}_{n}-\mu}{\sigma} \frac{(d)}{n \rightarrow \infty} \mathcal{N}(0,1)$$
- 第10章统计推断与假设检验
  - 垃圾邮件过滤、癌症筛查、恐怖分子追捕，我们最不能容忍哪件事情出错，又有哪件事情是可以“睁一只眼闭一只眼”的？
  - CZ jbstatistics 相关视频可以参考
- 第11章民意测验与误差幅度
  - 民调结果显示，有89%的美国人不相信政府会做正确的事，有46%的美国人认可奥巴马的工作表现。这个结果可以代表美国人的真实想法吗？
  - 当进行一项民意测验或采用别人的民调成果时，我们应该问问自己如下这几个涉及方法论的关键性问题。
    - 这个样本能正确地反映目标群体的真实观点吗？
    - 采访过程中的问题设置能得出对研究课题有用的信息吗？
    - 受访者说的就一定是真的吗？
- 第12章回归分析与线性关系
  - 你认为什么样的工作压力更容易使职场人士猝死，是“缺乏控制力和话语权”的工作，还是“权力大，责任也大”的工作？
  - t 分布
- 第13章致命的回归错误
  - 世界上3本最有声望的医学期刊上刊登的49篇学术研究论文中有1/3 后来都被推翻了，所以，“尽量不要用你的回归分析研究杀人”。
  - 用回归方程式来分析非线性关系。
  - 相关关系并不等同于因果关系。
  - 因果倒置。
  - 变量遗漏偏差。
  - 高度相关的解释变量（多元共线性）
  - 脱离数据进行推断。
  - 数据矿（变量过多）
  - CZ 这里的反思其实有点像神经网络的不可解释性，不过差别在于神经网络的问题在于解决问题，而回归分析的目的在于解释世界。你没办法给出一个结果说，好的这就解释完成了。
- 第14章项目评估与“反现实”
  - 哈佛大学等世界顶尖大学的毕业生进入社会后，其收入往往高于一般大学的毕业生，让他们获得高收入的究竟是常春藤大学的教育优势，还是他们本身就很出色？
  - 不连续分析实验。 实验组和对照组还存在一种设置方式，就是将那些刚好符合介入或治疗条件的对象，以及以毫厘之差错失治疗机会的对象进行比较。
  - 一些常用的实验方法实现”反现实“
    - 随机控制实验。 成本高昂
    - 自然实验。 并不是所有人都有能力随随便便投资几百万美元来运行一个大型随机实验。一个更为经济的替代方案是寻找到一个自然实验，当某个事件自然而然地发生时，恰好营造出一个接近于随机、对照的实验环境。
    - 非对等对照实验。 有些时候研究治疗效果最佳且可行的方式，并非完全随机地分配实验组和对照组。当环境不允许我们进行随机分配的时候，我们当然希望最终的实验组和对照组能够大体相似，不对结论的准确性产生影响。
      - “相比起毕业证书上的学校名字，正确认识自己的兴趣、抱负和能力更能成就人的一生”，这其实也间接回答了本章升头所提出的那个问题。
    - 差分类差分实验。 观察原因和结果的一个最佳方式就是放手去做，然后看看会发生什么，因为这就是婴儿和小孩（有时候也包括成年人）认识世界的途径。
    - 不连续分析实验。 实验组和对照组还存在一种设置方式，就是将那些刚好符合介入或治疗条件的对象，以及以毫厘之差错失治疗机会的对象进行比较。
- 结束语统计学能够帮忙解决的5个问题
  - 橄榄球的未来在哪里？ 橄榄球是否会导致不可逆转的大脑损伤？
  - 是什么导致了自闭症患者数量的激增？ 发病潮和诊断潮的叠加？
  - 我们依据什么来奖励优秀的教师和优质的学校？
  - 解决全球贫困的最佳途径是什么？
    - 布基纳法索极端贫困
    - 提到了[[贫穷的本质]]两位作者在印度和肯尼亚的项目
    - 2010 年，迪弗洛获得了有“小诺贝尔经济学奖”之称的约翰· 贝茨· 克拉克奖，该奖项是由美国经济协会授予的，颁奖对象为在美国大学任教、40 岁以下的学者。在经济圈，尤其是经济学“怪人”圈中，这个奖被看作比诺贝尔经济学奖分量更重的荣誉，因为约翰·贝茨·克拉克奖每两年才颁发一次（但是从迪弗洛获奖的这一年起，颁奖周期改为一年一次）。无论如何，约翰·贝茨·克拉克奖是所有佩戴厚镜片的人心目中的MVP（最有价值球员）。 [[Esther Duflo]]
  - 猜猜你是谁？
- 致谢
  - 本书是向早前美国诺顿出版公司的一部经典作品—达莱尔·哈夫的《统计数字会撒谎》致敬，这本写于20 世纪50 年代的通俗读物已经创下了惊人的百万册销量。