315|可视化打假:商家如何利用图表欺骗我们?

2022-01-08

  这日是“315”邦际消费者权柄日,良众媒体都正在为消费者打假。原本,商家的搞假不光存正在于商品中,传扬先容里也有使用视觉罗网棍骗消费者的。

  希罕是比拟文字,图外正在散布中更有上风,所谓一图胜千言。体面的图外、专业的图外,可托度好似也更高。

  而阿尔贝托·开罗(Alberto Cairo)的《数据可视化罗网》(How Charts Lie)一书则告诉咱们并非如许,它暴露了良众美邦政客、公司使用图外来棍骗的魔术。本应助读者更好地舆会数据的图外,却不时成为忽悠人的器械。

  比方书中提到的这幅曾挂正在白宫西翼的 2016 年美邦大选投票结果舆图,就很具有误导性。一眼望去似乎 80% 都是投特朗普的赤色,但本质上他和希拉里得票率都缺乏50%。

  图片原因:@TreyYingst让咱们一齐来一场图外打假吧。可视化的道理

  “借使说图外的中心就正在于:正在尽能够老实于数据的本原上通过百般格式来编码数据,那么我要告诉你:打垮这个中心准绳将无一例边境导致视觉棍骗。”——《数据可视化罗网》第 59 页

  Cairo 正在书的出手就指出了可视化的最中心准绳,即老实于数据去做可视化。这一点要做到相同单纯,苟且用个 Powerpoint 或 Keynote 里的图外器械一键天生,未便是最正确、最老实于数据的可视化了吗?

  但原本猫腻众众。由于思棍骗你的人,才不会用默认模板单纯地天生图外,而是挖空心思地调解百般参数,让你看完图后,得出和数据自身并不相符的结论。

  为什么要这么读图?现正在生涯中图外这么众,还要教吗?是的,良众人原本并不会读图。遭遇图外时,往往只看题目和可视化,疏忽了数据原因、坐标轴等局部,而这些恰是能够做动作的地方。

  Cairo 就遵照这些读图重点总结出了 5 大类图外罗网,咱们一个个来看。其它,为了让大师更好理会这些罗网及其背后的道理,课代外找了少许邦内的图外做案例来做证明,说未必就有已经骗到你的图。

  下面这张是凤凰讯息(左边)和 BBC (右边)报道中邦新冠确诊人数的舆图,数据更新时辰都是2020年2月14日的下昼。

  图片原因:凤凰讯息、BBC除了 BBC 的舆图邦界线过错,少了良众主要的地方外,两张舆图又有没有什么地方让你感想过错劲?是不是 BBC 的舆图看起来像是邦内的疫情重灾区有良众?东部良众省份的疫情都和湖北相似紧张,而咱们明了本质境况并不是这么一回事,凤凰讯息的图就没这种观感。

  分别就正在色块的取值界限上:固然两张舆图都划了 5 个色块,但 BBC 将确诊病例大于 500 例的省份都给予最紧张的深赤色,导致了当时确诊 529 例的重庆和确诊 51986 例的湖北是相似的颜色,很有误导性。而凤凰网的数据划分界限就合理的众,是以 10 的次方为分界线。

  “图外的质料取决于数据编码的精准度以及它是否采用了适合的比例。”——《数据可视化罗网》第 91 页

  图片原因:小米颁发会这是 2017 年 4 月 19 日小米颁发会上的一幕,映现的是 小米6 手机和友商的三台手机正在安兔兔上的跑分。颁发会的 PPT 正在这里耍了一个小灵巧,坐标轴并非从 0分 出手,而是直接从 40000分 出手。这么做会从视觉上发生什么样的功效呢?那便是妄诞差异。

  数据上,小米6 的跑分是 18 万众分,而 OPPO R9s 是 7 万分不到,前者是后者的 3 倍不到。而从4万分出手映现,高度给人的视觉感应是两边的倍数有 5 倍众。

  “放纵地操纵标度和比例日常会导致图外揭示的污蔑。”——《数据可视化罗网》第 68 页闭于坐标轴是不瑕瑜得从 0 出手,向来是可视化策画中的一个须生常讲的题目,美数课也已经有图被读者指出坐标轴起始不是零(睹《特朗普的败选人生该怎么就寝,这里有份类型名单》的评论区)。

  Cairo 感触这个须要联结本质题目看,借使图外是使用高度自身去暴露数据,如柱状图,那么坐标轴就该当从 0 出手,但借使咱们闭切的是数据的相对位子,如散点图等,那么坐标轴的起始就能够更伶俐。

  手机颁发会上的 PPT 图外耍小灵巧的真是太众了,小米起码仍然基于数据去暴露的图外,下面这张图是就真的是放飞自我了,这是 魅蓝S6 手机新品颁发会上先容收拾器的一幕:

  图片原因:魅蓝颁发会奇特的地方显露了:三星 7872 收拾器的得分看起来是高通骁龙 625 收拾器的两倍,但前者是 1313 分,后者是 845 分。课代外遵照数据做了一张对照图,本来 PPT 制制家不光将本人的柱形图拉长了,数值 1313 应是拔到了 1400 众,还把竞品的柱形图缩短了。

  第一个图外罗网是使用读者没有看坐标轴或标签的民俗来举办视觉棍骗,接下来这个罗网使用的则是不时被大师歧视的数据原因。

  Cairo 正在书中提到了这么一句俗谚——“输入垃圾,输出必为垃圾”(Garbage in garbage out),这是法式员、统计学家和科学家中常说的一句话。正在图外中这个事理也同样实用:借使图外援用的数据都是错的,那它再精细也没用。

  来看下面这张图,这是一张讲各地小孩会说方言比例的图外,曾正在社交媒体广为宣传。

  图片原因:汇集由于散布得太广,良众媒体、政务号都出来回应:扬子晚报《吴语熟练运用比例天下最低,专家:不必认真》、姑苏颁发《姑苏小孩会说方言比例天下垫底!?咱们特意做了考察,结果……》。而这张图最大的题目便是数据原因。谁做的考察、考察的样本量是众少、熟练运用方言的决断圭臬是什么,这些通通没有交待。

  “那些适当咱们根深蒂固的信心的图外,对咱们发生误导的能够性最高。”——《数据可视化罗网》第 93 页

  正在知乎上“怎么对待这张《6 ~ 20 岁熟练利用方言人群比例》统计图?”这个题目下,不少答复便是由于这张图适当本人的认知因此采用信托:

  “行为一个无锡人,无锡(征求苏南吴语区)的方言普及率真的是很令人操心。”

  怎么识破呢?Cairo 正在书中写了 17 条阅历,这里囿于篇幅局部,分享一条最全能的方式:

  不要相相信何没有显然证明故事原因或没有给出援用链接的宣布物。——《数据可视化罗网》第 93-94 页

  Cairo 总结的第三种罗网是供应局部的数据,比拟前一种,这种哄人格式愈加阴险。

  “视觉垃圾的出卖者们都明了,要思棍骗读者,一种有用办法便是运用断章取义的数据。”——《数据可视化罗网》第 124 页

  图片原因:汇集课代外确认过,数据确实是来自上海“随申办”小法式,那有什么题目吗?猫腻就正在这位汇集博主荫蔽了一个要害讯息——这是上海市户籍职员的统计数据,并不是生正在上海的生齿数统计。上海行为一个移民都邑,户籍生齿向来正在伸长,因此这里的数据中有良众是出生后移民来沪的。

  课代外正在 2021 年 2 月 7 日也正在这个小法式上查了一下,上海市户籍生齿中共有 252 人正在 2020 年 1 月 1 日这天出生,比上面的 156 人众了不少,下次查能够又众了。

  图片原因:汇集除了断章取义的数据,Cairo 还指出了另一种局部的数据:“与其挖空心思地映现一小局部精挑细选的数据,不如把尽能够众的数据一股脑塞进图标里,挤爆读者的思想宽带。”——《数据可视化罗网》第 124 页

  2019 年的时分,一系列中心为“北京离异率 48.3% ”的作品刷爆了恩人圈,衬着中邦的婚姻轨制将要淹没的气氛,同时还配了看起来很全很官方的数据。

  良众做数据阐明的民众号就指出了这些作品背后的数据题目:当年离异对数÷当年成亲对数获得的不是离异率,而是离结比。至于离异率的揣度公式要看是要精离异率(Fine Divorce Rate),仍然粗离异率(Crude Divorce Rate),两者的揣度方式也区别。

  图片原因:大数据DT,该号制制这张图外是为了指出题目但有这么无数据的图外放正在读者眼前,给人一种好全、好专业、好可托的感想,该当是错不了。大师有没有感想到,比拟前面那些罗网,这种罗网潜伏性更强,但它们都有一个合伙特性,便是前面提到的那句——都是“适当咱们根深蒂固的信心的图外”。

  生孩子的是不是越来越少了?离异的是不是越来越众了?对,那就点赞、转发呀。

  因此,Cairo 感触策画师正在做图外时,须要“辛勤正在‘过分简化原形’和‘揭示过众细节以遮蔽原形’之间寻求均衡”,局部的原形并不等于原形。

  什么是虚伪联系(spurious relationship)?单纯说便是把两件没有因果联系的事修筑接洽,太阳升起是由于公鸡打鸣便是一个类型的例子。

  有人还记得“巧克力吃得越众的邦度,诺贝尔奖就拿得越众”这条讯息吗?这出自医学威望期刊《新英格兰医学杂志》上的一篇钻探(DOI: 10.1056/NEJMon1211064),论文中有如许一张图外:

  图片原因:《新英格兰医学杂志》这篇钻探的作家通过这张图说,人均巧克力消费量( X 轴)和人均发生的诺贝尔奖得主数( Y 轴)有正闭联性,所以吃巧克力有效。至于道理,则是巧克力中有类黄酮(flavonoids),能够提拔脑力。可别嘲乐他的奇特逻辑,又有此外钻探职员受他思绪发动,钻探出了喝牛奶众的邦度获诺贝尔奖几率高。

  图片原因:汇集这两个钻探的缺点便是强行修筑因果接洽。有作品就举办了批驳(DOI:10.3945/jn.113.174813),用的是反证法,展现宜家的数目也和诺贝尔奖得主的比例有着明显的正闭联性。这两样东西若是真有因果联系,课代外感触中邦每个都邑都该当开十个宜家。

  图片原因:The Journal of Nutrition但为什么这种强行修筑因果接洽这么有墟市?Cairo 是这么注解的:“人的大脑自身就有一种‘对所睹举办太甚解读’的偏向,并且人的大脑老是识图印证与咱们信心相符的实质,当图外遭遇人脑的这种偏向性,其表示误导性顺序的感化更会被放大。”——《数据可视化罗网》第 177 页

  有个很经典的搞乐网站“虚伪闭联”(),就搜罗了良众这种离奇的虚伪因果联系图:

  鸡肉消费量竟和原油进口总量闭联?日本车卖得越众,撞车自裁的美邦人越众?掉进泳池淹死的人数居然与凯奇演的影戏有接洽?影帝瑟瑟哆嗦,外现不敢再演影戏了。

  对待这些图外中的逻辑罗网,Cairo 给浅显读者的识破方式便是众思思:“这幅图外揭示出来的顺序和趋向除外,这些数据又有能够荫蔽了哪些顺序和趋向?”——《数据可视化罗网》第 191 页

  咱们生涯中,还会遭遇良众考察性或预测性的数据,如谁会正在投票中胜出、台风挪动门道或者股票的走势。但这些预测有时分不行包管百分百的正确,它们不时会带有一个叫置信区间的东西。

  比方“考察显示,北方人春节吃饺子的比例是 70% ,95% 的置信程度上边际差错是正负 10 个百分点。”的兴味是:遵照咱们的考察,咱们有 95% 的控制,确定 60% 到 80% 的北方人春节吃饺子。(数据是课代外顺手思的,请勿认真)

  策画的时分就须要将这种能够性外示出来,而不是简单纯单暴露一个 70% 就完毕了,而读者必定要细心图里的置信境况。

  图片原因:FiveThirtyEight以上便是《数据可视化罗网》这本书总结的 5 大类图外罗网,征求了:倒霉的策画、数据不靠谱、局部的数据、虚伪联系以及荫蔽不确定性。但有错的不是图外,图外只是器械,结果“图外会撒谎的原由之一是由于咱们会对本人撒谎。”Cairo正在书的结果提到:“咱们生涯正在一个数据和图外被神化的时期”,而如许暴露图外罗网的科普是很有须要的。书里又有良众无意思的可视化案例解析,感兴味的小伙伴接待找书来看。