如何避免被错误地图欺骗 - 彭博社
bloomberg
这张地图到底是什么意思?iQoncept / Shutterstock.com地图在如今非常流行。博客和新闻网站(包括 这个)经常发布地图,这些地图常常会迅速传播——40张解释世界的地图、每个美国州最受欢迎的电视节目等等。它们遍布于Facebook、Twitter和Tumblr,新闻机构显然正在利用地图在数字空间中所具有的强大力量:它们可以快速有效地可视化大量数据。但它们也可能不准确和误导性地可视化大量数据。
地图不仅仅是一幅图像——它也是地图背后的数据、用于收集和解析这些数据的方法、进行这些工作的人员、在可视化方面所做的选择以及用于制作它们的软件。地图也是对世界的一个表现,在某种程度上,这种表现总是必须有些不准确——毕竟,大多数地图是在平面上展示大致球形的世界。某些事物总是被省略或突出,而其他事物则被改变,因为没有任何地图可以一次性展示所有内容。所有这些选择和偏见,无论是有意识的还是无意识的,都可能对地图本身产生重要影响。我们可能在不知情的情况下看到一些不准确、误导或错误的东西。
美国人从小就被教导分析和理解词语的意义和操控,但他们很少被教导关于地图的同样技能。正如马克·蒙莫尼尔在他那本精彩的书中所写的如何用地图撒谎,美国人从小就被教导分析和理解词语的意义和操控,例如广告、政治活动、新闻等(正如他所说的,要成为“谨慎的词语消费者”),但他们很少被教导关于地图的同样技能。
彭博社城市实验室一位艺术家重新想象童年的空间,结果却充满荆棘房地产开发商纳夫塔利在迈阿密海滩寻找交易,借助佛罗里达的推动美国的驾驶和拥堵率比以往任何时候都高海牙成为全球首个禁止石油和航空广告的城市关于使用地图(以及整体地理)的教育在美国学校中并不全面或普遍。例如,高中人文地理的高级课程考试直到2001年才开始提供,许多顶尖私立大学也不提供地理作为一门学科。哈佛在1948年取消了这门课程,一些学者将其归咎于全国地理学习的下降。
许多研究报告称,绝大多数美国人缺乏地理素养,无法在地图上找到阿富汗或伊拉克等地方,更不用说理解关于它们的更复杂的空间关系——事物在哪里,为什么在那里,这如何影响其他事物?(值得一提的是,哈佛在2006年成立了地理分析中心。)如果他们想到这一点,许多美国人认为地理只是记住州首府的列表或看《国家地理》中的酷动物图片。
因此,人们常常认为地图是准确的,这并不奇怪,因为地图的制作方式往往不清楚——正如Monmonier所说,地图是“被赋予不当尊重和可信度的神秘图像”,这些图像“被委托给一群技术上合格的设计师和绘图员”。几乎每个人都能写字,但并不是每个人都能制作地图。
与此同时,随着计算机和软件变得更强大且更便宜,地理信息系统(GIS)的使用激增。新的网络制图工具和数据的可用性正在使制图民主化,几乎任何人都可以尝试制作地图——这在以前仅限于专家或专业软件用户。这意味着更多的人正在创建自己的地图,这无疑是一件好事,但这也意味着有更多不准确、不正确的地图存在——要么是故意设计的(为了传播病毒或推动某种观点),要么是因为创作者并不完全理解他们在做什么。
地图仍然很有趣,即使是不准确的地图。但你可以采取一些步骤,并牢记一些概念,以避免被地图所欺骗。
不要相信标题
一个好的制图者应该正确且简洁地解释他们的地图实际展示了什么,而不是做出夸大的声明。最近的一个例子是一个 纽约时报 的文章和互动地图,名为 “成长的最佳和最差地方。” 这似乎是不言自明的,但这张特定地图背后的数据实际上只显示人们根据成长地点的不同而赚取的收入多寡。这仍然是一个非常有趣的发现,但赚取更多或更少的钱并不一定意味着一个地方比另一个地方更适合成长,这一点很难定义,并且肯定会涉及许多变量:也许一个地方的生活成本更低,或者学校更好,医疗保健更好,娱乐选择更多,等等——而 一篇配套文章 实际上提出了这个论点。
纽约时报数据呈现得非常吸引人,令人印象深刻的是,地图实际上会根据你阅读的地点而变化,但标题并没有真正展示它所声称的内容。如果你只是看地图并认为某个地方好或坏,你就错过了整个故事。亚特兰大或丹佛是成长的坏地方吗?最好的地方是怀俄明州、犹他州、达科他州以及农村明尼苏达州和爱荷华州吗?这取决于你认为的最好和最坏。
地图标题上的红旗词也应该是类似Upworthy的词汇,如惊人、不可思议、华丽等等,或者那些声称解释一切的词——“这张令人惊叹的地图显示美国一半的产出是由少数城市产生的,”例如。深入研究数据和地图制作方式后,那些惊人的说法往往变得相当无聊。
那张显示国内生产总值(GDP)的特定地图似乎暗示城市中的人们比农村地区的人们更具生产力,但实际上它显示的是国家50%的GDP是由50%的人口产生的,因为生活在城市的人远远超过生活在农村的人:这根本不是一个惊人的故事。更有趣的地图应该是按人口划分的GDP——某些地方是否比其他地方更具生产力?为什么?(我喜欢告诉我的学生,一张好的地图可能提出一个问题,而不是回答一个问题。)一个类似的例子是显示92%的美国艾滋病病例发生在25个县的地图——但另一篇文章指出大多数美国人口生活在这25个县,所以这可能是意料之中的。更有趣的是绘制县之间的差异。
与标题相关的一个问题是它们如何解释地图,这也说明了为什么一张好的地图应该在地图本身上包含数据来源(稍后会详细说明)。例如,这张地图 美国企业州 声称显示每个州“最具识别度”的公司。但“最具识别度”是什么意思呢?地图的作者值得称赞地解释说,这只是他认为最能代表该州的公司,而不是基于实际数据的东西,比如对某个公司的熟悉程度百分比、市场价值或其他什么。佛罗里达州 不需要为 这张地图上代表它的Hooters感到羞愧。例如,另一张关于某州最具特色乐队(即在其他州更受欢迎的乐队)的热门地图,背后有实际数据,被分享为 “你州的最爱乐队”——这是两回事。
这些“惊人的”地图往往只是某人编造的。当然,这并不意味着它们不能看起来好看和有趣。(事实上,它们应该看起来好看。不要分享丑陋的地图。)
来源很重要
地图上数据的来源是你应该首先寻找的东西之一——这些信息来自哪里?这是一个可信的来源吗?是最新的吗?你能自己查看吗?
如果来源没有列出,请保持怀疑——即使它列出了也要保持怀疑。例如,在最近一张关于 最被讨厌的大学篮球队 的病毒式地图中,制图者包括了一些元数据,列出自己为创作者,这很有帮助。然而,数据本身来自于一项在Reddit的大学篮球板块上发布的两题Google Docs调查,几乎不是一个具有代表性的美国人群体。调查确实要求受访者输入他们来自哪里,但人们可以故意说错——一个不喜欢杜克大学的人可以说他们来自北卡罗来纳州,以扭曲数据。
在这种情况下,更准确的描述应该是“在自我选择的Reddit大学篮球板块用户中最被讨厌的大学篮球队”——这种解释应该出现在地图上,而不是让读者自己去寻找。再说,这可能也没有帮助它被 报纸 选中,报纸在那些所谓被讨厌的球队所在的地方出版。
你能相信这张地图中的数据吗?仔细看看。来自《花花公子》这是一个愚蠢的、无害的例子(谁在乎大学篮球仇恨地图是否不准确?)但任何类型的数据——政治、健康、宗教等等——都可能发生同样的事情。
readily available 的源数据也可以让你看到某些东西是否存在偏见,甚至只是完全虚构的一个有趣例子是 “他们一直掩盖的最常见死亡原因” 按州分类,包括像巨魔、俄罗斯入侵、湖怪和乳糖不耐症这样的东西。这显然是对显示州内最受欢迎的电影、工作或食物等内容的病毒地图的讽刺——或者更严肃的主题,如死亡原因——这些都可能是 误导或被误解,并且很容易隐藏州之间的差异。
像 “每个州的标志性食物” 和 “每个州最受欢迎的电视节目”(或者是最重要的节目?标题很重要)也来自Reddit用户,这可能是为什么像“冰毒饼干”这样的东西出现在阿肯色州的标志性食物中。这些地图当然很有趣,但基于它们得出结论并不是最好的主意。可以推测,小石城的餐馆菜单上没有很多冰毒。
热图和密度图可能会让人困惑
这部网络漫画 XKCD 以幽默的方式揭示了这种类型,地图显示了三种无关事物的密度:访问网站的人、订阅 玛莎·斯图尔特生活 的人,以及消费毛茸茸色情的人;而这三者的密度是相同的。
XKCD这个笑话在于每张地图实际上只是一个人口地图,更多的人往往会做更多的事情。上面提到的GDP地图实际上也只是一个人口地图——在有更多人的地方,GDP也更多。
另一个说它 显示每条推文 的地图也属于这一类别:虽然是一张真正美丽的地图,但它基本上显示的是人们在更多人聚集的地方发推文,正如伟大网站的地理学家 Floating Sheep 指出的那样。也许仅仅显示某个地方有很多东西就足够了,但如果你试图绘制除了人口之外的其他东西,或者得出有用的结论,热图需要做一些其他的事情,比如按人口或其他有用因素对数据进行概括。
例如,每人推文数量的地图会很有趣:这样你就可以看到你所观察的事物实际上是更常见还是更少见。(制作那张推文地图的埃里克·费舍尔有一些其他有趣的例子,比如观察 游客与当地人 拍摄地理标记照片的地方,以及一些显示在不一定有更多人的地区推文更多的地方,比如华盛顿特区的阿纳科斯蒂亚河以东。)
制图师试图展示什么?他们试图隐藏什么?
地图是世界的表现,其中某些事物被突出显示,而某些事物被移除。这通常是件好事:如果有一张特定目的的地图,它应该只包含有用的东西(例如,公路类型、路图上的名称和城市),或者为了清晰起见,你可能会减少某些东西的复杂性,比如地铁图上的线条。但很难判断某些东西是否被操控或移除,因此考虑制图师可能做出的选择是很重要的。
一个简单的例子是那些宣传或试图说服你的地图:那张房地产地图是否准确显示了距离?它是否遗漏了附近的煤电厂或臭鸡场?(想想 辛普森一家 和 单轨列车——它把布罗克韦、奥格登维尔和北哈弗布鲁克标在了地图上!)
颜色和大小也可以用来突出或隐藏某些东西。如果制图师想要显示某样东西是坏的,他们会把它标成红色;如果他们想要突出某样东西,他们可能会把它做得大而鲜艳,而把他们不想让人注意的东西做得小而灰(或者干脆把它们去掉)。
如果他们想要显示某样东西很多(新泽西州的坑洼,例如)他们可能会把符号做得大而醒目。这些大符号可能会掩盖数据中的很多变化——这些坑洼是宽一英尺,还是只有一英寸?新泽西州的坑洼比其他地方多吗?除了“哇,这里有很多坑洼”之外,几乎无法判断其他信息。(而且地图也没有列出数据的来源。)
这也可能是无意的:人们可能会假设某些东西是坏的,如果它是红色或不同的颜色,即使事实并非如此——而红色也往往会使人们的视线偏离更微妙的颜色。一个令人困惑的例子是美联社的一张地图,显示了 各州的人口增长:
密歇根州是红色的,所以这意味着不好,对吧?但是图例因多种原因而令人困惑。这里有三种不同类型的范围:两个“少于”符号,三个数值范围如5-10,然后是一个“加”符号。数字显示的多样性可能使理解变得困难。而且还有重叠:10%是在5-10范围内还是10-15范围内?更有用的范围可能是0-4.9,5-9.9,等等。少于5%的数据在技术上也包括少于0%的数据。最后,注释说数据是以千为单位,但随后列出了百分比。德克萨斯州的人口增加了很多,但并没有增加20000%。所有这些都很好地说明了为什么图例和颜色不应被忽视。如果红色是坏的,那就明确说明原因。
一个相关的特征是要注意数据是如何结构化的——它是数据本身的值,例如总失业率或失业率,还是从这些数据中派生的其他东西?你离实际值越远,就越应该保持怀疑。你是在查看变化率,甚至是变化率的 减少 吗?如果有人强调第二导数,他们可能会掩盖整体情况不好的事实。(不过,有一个重要的推论:按人口标准化数据,我们很快会讨论到这一点。)
数据分布的方式很重要
如果一张地图使用不同的颜色显示某种事物的变化,比如按州划分的人口,其中浅色表示较少,深色表示较多(这被称为分级地图),请特别注意将值安排成不同类别的方式。这种分布可能会误导或掩盖现实。
通常,制作一张将数据分为相等区间的地图是正常的——按县划分的人口从1-10,000,10,001-20,000,20,001-30,000,等等。然而,有时这种逻辑组织并不是呈现信息的最佳方式。如果制图者想要突出或隐藏某些内容,操纵类别分界线(这些分组之间的分隔线)就很容易,将所有高值或低值放入一个大类,同时将其他值分成各自的类别。通过这种方式,你强调了数据的一部分,同时隐藏了另一部分。一个很好的例子是这些佛罗里达州西班牙裔人口的地图:


虽然它们都使用完全相同的数据,但每张地图中不同的类别选择使得西班牙裔人口的数量看起来差异巨大。
如果地图没有实际说明这些划分是什么,比如仅仅包含“高”和“低”的颜色,或者完全省略图例,那么要非常怀疑。这是另一个警告,表明来源可能不可信,或者只是某人编造的东西。
数据的分组也可以是任意的:如果制图者想要突出他们认为是积极的事情,比如失业率的下降,他们可能会制作一张显示失业率下降的县的地图,以及下降了多少的程度,使用深色渐变来显示下降的幅度,而失业率上升的县则都使用相同的不显眼的颜色(比如浅灰色)。也许那些地方的失业率上升实际上比突出显示的下降要大得多,从地图上你无法得知这一点。显示相同数据的地图,如果包含上升和下降的比例,会让读者对数据有很不同的理解。(这又是数据来源重要的另一个原因。)
分级图可能很棘手
我之前提到的分级图可以非常有效地展示数据,但如果使用不当,可能会导致很多问题。其中之一被称为“可修改区域单元问题”,这是因为州、县、人口普查区等的大小或人口并不均匀,且人口在其中的分布也不均匀。这意味着现实世界中的聚集或模式可能会被用于划分数据的边界所掩盖。你可能需要深入挖掘数据以理解这些模式。
这 系列分级图 显示了2012年美国总统选举的这个问题。第一张地图让人觉得总统竞选相当接近,或者国家非常分裂(红州与蓝州)。然而,根据谁赢得选举将一个州涂成红色或蓝色,会掩盖胜利的边际、总票数以及该州内部的任何变化。
如果制图师选择更细致地按县显示相同的数据,这是一个合乎逻辑的选择,似乎罗姆尼的支持率远高于奥巴马,尽管奥巴马获得了多500万票,并轻松赢得了选举人团的投票。我们知道这一点是因为每个县的人口并不相同——奥巴马在小型城市县中以压倒性优势获胜,这些县的人口非常庞大,而罗姆尼则赢得了许多人口稀少的农村县。即使你按支持程度显示数据,从蓝色到紫色再到红色(选举后流行的“紫州”地图),你仍然会错过城市县通常面积很小但人口却很大的事实。
可修改的区域单位问题也是为什么映射像密度(比如人口密度)而不是原始数字会很有帮助,因为小县或普查区可能非常密集。
解决这个问题的一种方法是 一个卡托图,这是一个图形,其中的区域单位(在这种情况下是县)根据其人口大小进行调整,因此人口更多的县看起来会大得多。
这在某种程度上是有帮助的,但即使我们已经知道那些州或县是什么,也可能会相当混淆或迷失方向。添加显示每个县胜利边际的颜色渐变会更有帮助:
该气候图显示,大多数人口众多的县 overwhelmingly 支持奥巴马,而其余的县大多是紫色的。
这一切可能看起来显而易见,但那是因为我们通常熟悉美国的选举结果。我们不太熟悉的信息可能会显示出不存在的模式或基于展示或组织方式的错误模式。这就是为什么制图师需要理解他们的数据和他们所绘制的内容的重要性,以及为什么数据应该是可用的,以便其他人可以进行查阅。
一个糟糕的理解例子是 FiveThirtyEight 关于 尼日利亚绑架事件 的一篇现在已更新的文章。最初,作者在没有充分理解数据是如何收集和组织的情况下绘制了绑架报告的数据,并从中得出了许多错误的结论,导致了一次漫长的撤回。例如,未被映射到尼日利亚特定城镇的数据被放置在该国的正中心,因此一个分区图使得该中心点所在的地区看起来发生了大规模的绑架潮。此外,文章声称这是绑架地图,而实际上这是一张 绑架报告 的地图,这是一个微妙但重要的区别,也是为什么准确的标题和描述很重要的另一个例子。
基础数据也很重要
即使是用于地图的基础数据也可能产生重要后果——边界、位置等等。例如,谷歌地图根据你所在的位置改变边界:中国、印度和巴基斯坦的边界在每个国家中都大相径庭,因为每个国家的土地主张相互冲突。该公司对 克里米亚 在乌克兰、俄罗斯和世界其他地方也做了同样的事情,微妙地适应(甚至改变)这些国家人们的认知。你可能没有意识到有什么不对,因为你一直以同样的方式看待它,而其他地方的人可能一生都看过不同的地图。
地图的展示方式也可能很重要。臭名昭著的墨卡托投影就是一个显著的例子,它夸大了欧洲和北美的大小,同时使非洲和南美看起来比实际要小得多。一个有趣的例子来自于白宫风云。
基础数据也可能存在系统性缺陷:关于“美国的每条河流”的病毒地图看起来很美,但如果你仔细观察,数据存在一些问题。
首先,在德克萨斯州和俄克拉荷马州有一些直线和矩形区域,河流的密度发生了变化——这显然不是自然特征,而是数据中的一个伪影,原因不明的情况下,某些区域的河流被绘制得比其他区域多。地图上使用的基础数据可能还有其他类似的缺陷,初看时并不明显。
但地图仍然是好的
这一切并不意味着所有地图都是坏的,或者我们应该总是对它们保持怀疑,或者只有专家才能制作地图。地图本身就是有趣和好玩的(地理也是!),但稍微多一点思考和对它们如何操控或模糊信息的意识也是一件好事。就像广告和政治活动一样,我们不应该天生就信任地图(或其背后的数据),但它们仍然可以是强大、有趣和令人愉快的。
*更正: 本文最初错误地陈述了人文地理高级 Placement 考试开始的年份。考试首次提供于 2001 年,而不是 2010 年。此外,描述美联社人口变化地图图例问题的段落已更新以提高清晰度。
顶部图像:iQoncept / Shutterstock.com