统计陷阱

[美] 达莱尔·哈夫

出版时间

2002-05-31

ISBN

9787810497428

评分

★★★★★
AI导读
核心看点
  • 揭示样本偏差与平均数误导
  • 剖析图表夸大与数据操纵
  • 辨析相关与因果逻辑谬误
适合谁读
  • 需批判性思维的职场人士
  • 备考GRE论证写作的学生
  • 关注数据真实性的普通读者
读前提醒
  • 关注数据背后的样本来源
  • 警惕图表比例带来的视觉误导
  • 区分相关性与因果性逻辑
读者共识
  • 短小精悍,极具现实指导意义
  • 培养对统计数据的本能怀疑
  • 逻辑清晰,适合大众入门阅读

本导读基于书籍简介、目录、原文摘录、短评和书评生成,不等同于全文精读。

精彩摘录
  • "一个以抽样为基础的报告如果要有价值,就必须使用具有代表性的样本 最基本的样本是随机样本,它是指完全遵循随机的原则从总体中选出样本。总体即形成样本的母体。 随机样本的检验标准是:总体中的每个名字或事物是否具有相同的几率被选进样本? 纯随机抽样是唯一一种能有足够把握利用统计理论进行检验的抽样方法。但它同样存在着缺陷。在许多情况下,获得这种样本难度很大,并且十分昂贵,以至于单纯的经济考虑就会剔除这种方法。一个更经济的替代品是分层抽样,它在市场研究和民意调查等领域中得到了广泛的应用。 由谁组成调查人员也会对调查结果产生微妙的影响。人们在接受调查时有迎合对方说好话的明显倾向。"
  • "“平均数”这个词有很广泛的涵义。当一个家伙希望影响公共观念时,或者是向其他人推销广告版面时,平均数便是一个经常被使用的诡计,有时出于无心,但更多的时候是明知故犯。当被告知某个数是平均数时,除非你能很明确地说出它具体的种类——均值、中位数还是众数,否则对它你仍知之甚少。 一个没有加以限定的“平均数”,就像这个例子里的收入数据,最终是无意义的。一个可能加深混乱的因素是,有些资料的平均数落在十分接近的范围内,出于一般的目的没有必要区分它们。 数据的分布接近正态分布。如果用曲线来描绘正态分布,你将获得一条类似于一口钟的曲线,它的均值、中位数以及众数都落在同一点上。"
  • "使用小样本的重要性在于:在大样本的使用中,任何由于机遇产生的差异都是微不足道的,不足以作为广告标题。例如,蛀牙仅减少2%将不会对销量有多大的提升作用。 在足够少的样本容量下,一个没有作用的结果是如何利用机遇产生的呢?——不需多少成本,你自己也可来试试。比如抛一枚硬币,多少次是头像朝上的呢?当然是一半的次数。这谁都知道 仅仅在进行了大量的实验后,平均数定律才是一种有用的描述并可用来预测。 多少才算足够呢?这又是个棘手的问题。它取决于抽样时你所研究的总体,其容量有多大,以及变动范围有多大。值得一提的是,有时样本中单位的数量看上去已足够多,但实际却并非如此。 检测数据以多打的可能性代表实际结论而不代"
  • "你的样本以多大的精度代表总体是可以用数据来衡量的,那就是:可能误差和标准误差。 结论是,对待智力测验以及其他抽样结果应注意它的范围。正常的智商不应该只是100这样一个数值,而应是一个范围,例如90~110。将处于这个范围的孩子与低于或高于此范围的孩子进行智商比较时会得出一些有用的结论。但比较相差不大的两个数据则毫无意义。你必须记住这个加减号,即使(特别是)它没有明确指出。 忽视抽样所隐含的误差将导致一些愚蠢的举动。那些把读者调查奉若神明的杂志编辑,是因为他们不理解调查。对于一篇有40%的男性读者喜爱的文章与另一篇只有35%的男性读者喜爱的文章,他们会刊载更多类似于前者的作品。 对于杂志而言,4"
  • "图表比例的变化所放大的数据实际差异"
  • "夸大数据对人们的印象,在快速的浏览中,让粗心的受众更容易产生错误的结论。"
  • "如果你想证明某事,却发现没有能力办到,那么试着解释其他事情并假装它们是一回事。在统计资料与人类思维冲撞所引起的耀眼光芒中,几乎没有人会发现它们的区别。不相匹配的数据是保证你处在有利位置上的武器,而且通常如此。 在运用交通意外事故的数据时,如果不牢记它们是极其不匹配的数据,那么,无论哪种交通手段的事故记录都会将你吓个半死。 “去年飞机失事造成的人员死亡比1910年多”,这是否意味着现在乘飞机要比过去危险?认为更危险的说法是不合理的,因为选择飞机作为交通工具的人已经是以前的几百倍了。 搜集这样的资料,却把它说成是另一回事,这种挂羊头卖狗肉的行为在生活中还有许多其他的形式。最普遍的做法是将看上去极像"
  • "一个古老的谬误,然而它仍频繁地出现在统计资料中,并被大量让人印象深刻的数据所伪装。这个谬误是:如果B紧跟着A出现,那么A一定导致B。更大的可能性是两个因素并不互为因果,而同为第三个因素的产物。 为了避免再次陷入到相关的谬误中,并且不再相信许多似是而非的事物,你需要对任何事物关联性的描述进行仔细的研究。所谓的“相关”,往往是通过相关系数这个精确的数据来证明两件事物具有关联关系,它可以有多种不同的类型。 一种相关是由于机缘巧合而产生的。由于机会的存在,你或许可以通过一组数据来证明一些根本不存在的结论。但换一组数据也许又无法证明。就像自称能防止蛀牙的牙膏生产厂商,你只需将对自己不利的资料扔到一边而公"
目录
总序
译者的话
绪言
第一章 内在有偏的样本
第二章 精心挑选的平均数

显示全部
用户评论
: C812/6058
入门还行 浅显了点
要学理论的话买本大学教材就行,一般人生活中不需要记住随机和粗大误差是啥,只要面对统计数据图表的时候本能上怀疑,认真审题,自己逻辑正确,就不会被牵着鼻子走,然后就会发现相当一部分数据和因果关系毫无意义
崇尚数字的时代需要这样的经典之作
若干年前听一个牛同事present类似内容,书上没讲到的trick还有一些
1
略读
老书,但是异常经典。堪称 GMAT CR 必备,比如交通事故数量 vs. 比例之类的问题,比如相关性、平均数陷阱等,让人拍大腿程度的那种相见恨晚。
不错的常识读本,也只停留在了常识层面。
浅显易懂的小册子,很好读,我们都应该懂点data。反省自己每天不加思考地接受了多少数字信息。(人们需要更好的媒介素养)
收藏