算法霸权

算法霸权

WEAPONS OF MATH DESTRUCTION: How Big Data Increases Inequality and Threatens Democracy

两个小时翻完的这本书,相为话题一直有关注,个人比较熟悉所以能这么快,想对我自己。数据和模型在当下的社会无处不在,这本书为了强调数学杀伤性武器这个观点难免偏颇,但是其中的人文关怀是值得肯定的,当下的模型也确实有非常多的问题。不过在中国这个充满社达主义者的社会来看,这本书值得讥讽的地方肯定不少。认清这些模型潜在的危害,是我们善用改进它的保证,开发者的责任感,数据立法,公权机构公开数据和机制是可能的办法。数据和模型从出来后便不可能再消失,如何利用是对全人类的考验。(很符合当下现实的是,这本书多次举例提到了美国的种族偏见,真的是弥漫全社会的系统性偏见,希望灯塔国能彻底解决这个问题,作为种族大熔炉,这个问题持续了百年,也该解决了。

Outline #

  • 引文
  • 第一章 盲点炸弹 #

    • 不透明、规模化和毁灭性
    • 算法模型对于当事人的不透明性
  • 第二章 操控与恐吓 #

    • 弹震症患者的醒悟
    • 金融市场复杂的金融模型掩盖了风险,不为普通人理解
    • 商业领域也是类似,算法吸引点击,数据分析用户行为
    • 作者提到的数学杀伤性武器只是一个方面,切不可以为所有的数学模型都是不好的。这么看来这本书的意义有多大呢?难道不是陈词滥调?
  • 第三章 恶意循环 #

    • 排名模型的焦虑和杀伤性的对立面
    • 大学排名问题,1983 年《美国新闻》杂志开启的
  • 湖北钟祥高考集体作弊
  • 第四章 数据经济 #

    • 掠夺式广告的赢家
    • 掠夺式广告,贩卖焦虑
    • 营利性大学
    • 发薪日贷款
  • 第五章 效率权衡与逻辑漏洞 #

    • 大数据时代的正义
    • 数据预测罪犯发生地点
    • 少数派报告
    • 天网
    • 数据带来的种族歧视,模型的自我正反馈加强
  • 第六章 筛选 #

    • 颅相学的偏见强化
    • 求职中的简历筛选,美国的系统性种族歧视。从公司的角度出发这样确实可以降低成本,从个人的角度出发了解模型的细节非常重要。歧视这和我们申请信用卡时候的机器筛选很类似。
  • 第七章 反馈 #

    • 辛普森悖论的噪声
    • 资本主义经济追求效率,模型优化给员工带来了很大的挑战。
    • 教育评估模型没有给出反馈,类似黑盒子模型。
    • 另外,辛普森悖论只在标题提到,正文没提是什么情况?
  • 第八章 间接损害 #

    • 所有数据都是信用数据?
    • 无处不在的信用数据
    • 错误其实只是小问题,模型正是太有效了才能在资本社会得到快速的普及。
    • 但是牺牲的人呢?
  • 第九章“一般人”公式 #

    • 沉溺与歧视
    • 保险公司利用数据
    • 这个问题就像电商收集数据几乎可以进行完全价格歧视。消费者能做的很少,呼吁立法,保障个人隐私数据。
    • 但是讲道理保险公司还是有权利对数据进行收集并在此基础上差别定价,这才是最符合他利益的行为。
  • 第十章 正面的力量 #

    • 锁定微目标的出发点
    • 竞选
    • 居然没有提到剑桥?
    • 结束语
    • 如何避免模型的问题
    • 建模者的自觉
    • 审查模型
    • 类似信用分的政府评分公开机制,方便查询
    • 模型当然也能用在好的方面

Highlights #

第一章 盲点炸弹 不透明、规模化和毁灭性 #

  • 📌 在哈里斯县,包括休斯敦市,对于犯下同等罪行的犯人,检察官判非裔美国人死刑的概率比白人高3倍,判拉美裔美国人死刑的概率比白人高4倍。这种情况并不是得州独有的。美国公民权利联盟的调查显示,犯同样的罪,黑人罪犯的刑期比白人罪犯的长20%。黑人只占据美国总人口的13%,但黑人罪犯占据了美国40%的牢房。 ^23353913-6-7489-7637
    • ⏱ 2020-06-03 17:22:39

第三章 恶意循环 排名模型的特权与焦虑 #

  • 📌 规模化。一种模型算法,不管是饮食方面的还是税法方面的,其在理论上也许是无害的,但是如果将该模型算法推行为全美或者全球标准,其结果就是产生一个扭曲的、极为糟糕的经济体系。 ^23353913-8-1073-1157

    • ⏱ 2020-06-03 21:17:54
  • 📌 所以,政府最终做出了让步。也许这一妥协后的结果比推行新模型更好。教育部没有将大学重新排名,而是把大量的调查数据公布在网站上。这样一来,学生就可以自行查询自己关心的指标,包括班级人数、毕业率以及应届毕业生的平均负债额等。他们无须再去了解任何统计法或者变量的权重。就像一个旅游网站一样,每一个人可以自行制定个人的模型。想想看:透明,用户控制,个人化——完全是数学杀伤性武器的对立面。 ^23353913-8-14537-14726

    • ⏱ 2020-06-03 21:28:37

第六章 筛选 颅相学的偏见强化 #

  • 📌 本章要探讨的是,在我们找工作的时候,自动系统会如何评判我们,以及它们评估的标准是什么。 ^23353913-11-1833-1876
    • ⏱ 2020-06-03 21:54:33

读书笔记 #

第三章 恶意循环 排名模型的特权与焦虑 #

划线评论 #

  • 📌 已毕业的校友将减少捐款。 ^10100589-7hPNxm1ht
    • 💭 为什么?
    • ⏱ 2020-06-03 21:19:43

划线评论 #

  • 📌 问题不是出在《美国新闻》排名模型本身上,而是出在该模型的规模上。该模型迫使每个人、每个学校都认准同一个目标,这导致了激烈竞争,以及很多意料之外的有害后果。 ^10100589-7hPNMp10Z
    • 💭 所以可能的解决办法是多来几个不同维度的排名,而不是打击这个排名。
    • ⏱ 2020-06-03 21:23:25

第四章 数据经济 掠夺式广告的赢家 #

划线评论 #

  • 📌 美国总人口的1%就已经是300多万人了。 ^10100589-7hPOwRuvp
    • 💭 中国这个数据更加夸张,真的是财富密码了。
    • ⏱ 2020-06-03 21:34:52

第六章 筛选 颅相学的偏见强化 #

划线评论 #

  • 📌 2001~2002年,简历自动阅读器还没有普及,芝加哥大学和麻省理工学院的研究人员制作了5000份虚假简历,应聘发布在《波士顿邮报》和《芝加哥论坛报》上的空缺职位,这些职位包括行政工作、客服和销售。每一份简历都包含了具体的种族信息。一半的简历申请人的名字被设计成白人的常见名字,如艾米丽·沃尔什、布兰登·贝克,另一半简历申请者的名字则看起来更像是非裔美国人,如拉奇莎·华盛顿、贾马尔·琼斯。研究者发现,白人名字的简历收到的回复比黑人名字的简历多50%。不过,第二个发现可能更加惊人:白人申请者中的履历优秀者得到的反馈比履历普通者要多;也就是说当面对的是白人申请者的简历时,招聘经理会给予简历的内容以更多的关注。但是,黑人申请者中的履历优秀者并没有比履历普通者得到更多的关注。显而易见,招聘市场依然带有很深的种族偏见。 ^10100589-7hPQhtAyk
    • 💭 美国的种族偏见真的是系统性的,这得多少代人才能解决?
    • ⏱ 2020-06-03 22:01:36

第九章 “一般人”公式 沉溺与歧视 #

划线评论 #

  • 📌 如果一个保险公司有一个系统,它可以每年从一个有着清白记录的司机身上额外获取1552美元的收益,那为什么还要改变它呢? ^10100589-7hPTf36c8
    • 💭 保险公司是为了赚钱的,如果可以这么肆无忌惮为什么不直接提高价格?所以这个理由太牵强了。
    • ⏱ 2020-06-03 22:46:49

划线评论 #

  • 📌 可以看到,这又是一个“物以类聚,人以群分”的例子,同样的不公正依然存在。 ^10100589-7hPToienw
    • 💭 你总是可以构造出不公的个例。
    • ⏱ 2020-06-03 22:49:06