为什么大多数推特地图不可信 - 彭博社
bloomberg
CartoB,通过Twitter当地理学家 泰勒·谢尔顿、阿特·普尔图斯* 和 马修·祖克 决定研究肯塔基州路易斯维尔的基于种族的空间隔离这一棘手现象时,他们有几个选择。正如普尔图斯在一次采访中所说,他们可以“建立一个完整的研究[并]给[路易斯维尔居民]配备GPS追踪器和日记。”但“这需要18个月的规划和大量资金,”他说。“太多钱了。”
所以地理学家们选择了更便宜、更快速的方式:Twitter数据。具体来说,他们从2012年6月到2014年7月期间,提取了570万条标记为路易斯维尔的推文数据。
彭博社城市实验室一位艺术家重新构想童年的空间,结果棘手房地产开发商纳夫塔利在迈阿密海滩寻找交易,伴随佛罗里达的推动美国的驾驶和拥堵率创历史新高海牙成为全球首个禁止石油和航空广告的城市当地理学家最初绘制路易斯维尔的推文地图时发生了什么。下面的地图来自他们的 即将发表的论文,刊登在 景观与城市规划,显示了2013年所有标记为路易斯维尔推文的1%随机样本。地图上标记的第九街以西是以黑人为主的西区。在许多白人路易斯维尔人的心目中,研究人员写道,西区是一个“根本上分离和独立”的世界。该地区的 中位家庭收入为21,700美元,比该市主要是白人的东区低63%。西区居民中有13%失业,只有7%拥有学士学位。与东区相比,东区只有4%失业,55%拥有四年制大学学位。
谢尔顿,普尔图斯,祖克从这张地图中可以得出什么样的结论?首先,看起来第九街以西的居民发推文的频率远低于东边的居民。因此,也许,社会科学家可能会假设,西区的推特用户确实较少。也许这又是“数字鸿沟”的更多证据,那些生活在国家最贫困和最不利的社区的人被排除在快速发展的数字时代之外,无法接入高速互联网。如果路易斯维尔能够让西区上网,也许一些西区的问题就能得到解决。
这种推特映射技术很受欢迎,可能在去年夏天达到了顶峰,当时一张标记地理位置的用户发推标签“弗格森”的地图 本身就病毒式传播。这样的地图似乎揭示了对重大国家事件的广泛社会文化反应。“看看有多少人关心弗格森!”是那张特定推特生成地图的隐含“哇,真厉害”的信息。但正如参与路易斯维尔研究的谢尔顿指出的,这种技术存在严重缺陷。
首先,请记住,实际上我们中相对较少的人一开始就在推特上——根据 皮尤研究中心的数据,仅有23%的美国人使用推特。但更重要的是,谢尔顿表示,推特映射者往往未能对其数据进行标准化,这意味着许多推特地图并不是深刻社会现象的表现,而更多是人口模式的描绘。例如,谢尔顿说,弗格森地图与“典型推文”并没有实质性差异。任何病毒式传播的内容——无论是#Ferguson,#Obamacare,还是#BachelorNation——在“趋势”并点亮推特地图时看起来都会相似。
#弗格森在2014年8月12日点亮了推特。CartoDB此外,这种“地图上的点”方法并没有教会地图查看者关于推文密度的任何信息。看起来地图上的一个点实际上可能是14个重叠在一起的点。一个推文从哪里开始,另一个推文又从哪里结束?研究人员如何调整针对垃圾邮件机器人,这些机器人通常会附着在热门推特话题上自动推广他们的商品?那么“强力用户”呢?那些反复用同一标签疯狂推文的人?
推特地图的问题并不是社交媒体数据本质上有缺陷——而是制作它们的人变得懒惰。意识到这些缺陷后,地理学家们试图为他们对路易斯维尔的研究增加一些背景。首先,他们追踪了地理标记的推文,以发现特定用户大部分时间是在西路易斯维尔还是东路易斯维尔。并且,他们选择了渐变的六边形区域,而不是用点来绘制地图。正如他们在研究中解释的那样:
[在]更大的数据集中,一名用户在路易斯维尔的第二街和市场街附近在六小时内创建了65条推文,但之后再也没有从该地区推文。未经调整,这种活动会给予这65条推文与定期前往该地点的个人推文相同的权重,或者与只访问一次但产生更少内容的个人推文相同的权重。
为了纠正这一点,研究人员选择在任何给定的六边形中映射每个用户最多五条随机选择的推文。
下面是他们修正后的地图,主要是西区居民用紫色表示,东区居民用橙色表示。灰色区域是两个地区的用户几乎平等发推的地方。
谢尔顿,普尔图斯,祖克与上面的原始数据地图相比,这种技术得出的结论几乎是相反的。路易斯维尔的西区居民实际上在四处活动并发推 很多。事实上,西区居民进入东区的可能性远高于东区居民前往西区的可能性。那个重要的“第九街分界线”,似乎将城市分割成两个独立且不平等的世界?现在看起来更像是一个非常渗透的边界。而且,超越地理标签本身,检查 东区用户推文的内容揭示了更多信息。
谢尔顿,普尔图斯和祖克“天哪,我们在贫民区,”一位东区用户在越过第九街线后写道。更有趣的是,许多东区用户在城市主要是白人和富裕地区时发推称他们“在贫民区”。“最终,”研究人员总结道,“这些不一致性展示了城市空间想象与个体和集体的日常活动空间之间更复杂的关系,这通过地理标签的社交媒体数据得以体现。”简单来说:事情并不总是像不成熟的推特地图所呈现的那样。
那么,Twitter 地图的问题并不是社交媒体数据本身存在缺陷——而是制作这些地图的人变得懒惰。“[当]你拥有这些巨大的 Twitter 数据集时……从上方看数据非常简单,让数据自己说话,然后就停在那里,”Poorthuis 说。“这不是正确的停顿点。你需要通过更详细地查看数据——变量和维度结合当地知识来进行背景化。”
“现在是2015年,”Poorthuis 说。“将这些点放在地图上曾经很酷,也是一项工程挑战。但现在是时候提出更深刻、更有意义的问题了。”
******更正:***本文的早期版本错误拼写了地理学家 Ate Poorthuis 的名字。