移动整个链条：网络链数据收集术_风闻

观察者网用户_241051-2020-07-03 13:51

2020-07-03

　　摘要：虽然大多数网络研究涉及收集网络数据，但只有一小部分工作侧重于收集网络链数据。收集网络链数据可以获得未被观察到的全网路径，用以捕获分离程度或搜索过程之类的现象。本期编译的文章提出了一个网络链数据收集的设计框架，利用这个框架描述了定性和定量收集网络链数据过程，总结了这些数据收集工作的经验教训，讨论了提高网络链数据质量的收集策略，为今后涉及网络链数据收集的研究提供了建议。

　　这是社论前沿第S1684次推送

　　微信号：shelunqianyan

　　介绍

　　现有大量关于收集网络数据方法和最佳实践的文献。然而，只有少数有影响力的研究涉及到网络链数据的收集。网络链数据可以通过许多不同的方式收集，但都涉及到一个未观察到的整个网络中的路径。因此，在收集整个网络数据不切实际的情况下，网络链数据能够捕捉到个人之外的社会结构特征。

　　以往网络链数据收集的研究强调了网络链数据收集可以采取的一系列设计。然而，这些最佳实践往往是抽象的，并没有在实践中被操作和评估，这限制了它们的应用价值。作者借鉴以往的网络链数据收集研究和综述，提出了网络链数据收集的设计框架，讨论了具体的数据收集策略，反思了哪些是有效的，哪些是无效的。

　　已有数据的收集设计

　　现有的网络链数据收集设计有六种。

　　第一种是经典小世界设计。Milgram(1967)的小世界实验为确定网络链数据收集的关键设计提供了一个起点，在不同的环境和不同的启动者和目标人群中被多次使用。

　　第二种是改良版小世界设计。电子通信技术的传播使得改良后的小世界设计成为可能，这种设计在几个重要方面与经典设计不同。最与经典设计不同的是，改良后的设计利用电话或互联网作为收集数据的模式，这样就不需要实物文件了。此外，在改良后的设计中，每一个环节都不是依靠链式参与者相互联系。研究者直接参与数据收集过程，使得其他设计的修改更加实用。

　　经典的和改良的小世界设计是高度结构化的。与此相反，第三种随机游走设计在很大程度上是非结构化的。随机游走设计最显著的特征是它没有目标。和经典的小世界设计一样，数据收集的模式仍然是物理性的。但是并没有特定的目的地，参与者也没有得到选择中间人的指示，只是在范围上限制中间人必须在焦点环境内。因此，随机游走的设计并不是为了评估启动者和目标之间的关系距离，而是为了追踪一个有界环境内的无定向扩散。

　　第四种关系链设计是另一种非结构化设计，但其方法和目的明显不同。关系链设计并不关注具体的启动者或目标，而是追踪参与特定互动形式的人的序列，包括研究合作的形成或学校项目的信息交流。数据收集的模式涉及定性访谈，其重点不是访谈参与者本身，而是他们对这些过程的回忆，从中重建网络链。这些访谈数据所产生的网络链可能包含受访者，也可能不包含受访者。与其他限制参与者只识别一个中间人的设计不同，访谈参与者可能在链中的一个步骤就识别多个中间人。

　　第五种搜索设计代表了结构化网络链设计和非结构化网络链设计的中间点。虽然搜索设计在很多方面与小世界设计十分相似，但与小世界设计以特定个体为目标不同，搜索设计以某类个体为目标。在实践中，采用搜索设计的研究范围很窄，试图了解特定环境中的成员如何定位一个具有特定技能或信息的人。搜索链混合设计放宽了上述一些限制，保留了搜索设计的个人目标类型，但采用了关系链设计的过程导向的重点和定性的数据收集模式。

　　最后一种专业设计包括对经典小世界设计的修改，以研究特定的方法问题。这种设计并没有得到网络链数据，而只是得到了一大组一步链末梢。从这些数据中，可以构建真实的社会网络和每对不认识的人之间隐含的网络链，然后检查了物理距离和链距离的差异。

　　构建集成设计框架

　　收集网络链数据包括要求启动者确定一个或多个可能知道目标的中间人，并对每个指定的中间人重复这一过程（见图1）。这个过程产生了网络链数据，它捕捉了一个未被观察到的整个网络中的路径，该路径从一个启动节点开始，（可能）以一个目标节点结束，并由中间节点组成。

　　图1 网络链数据采集

　　（温馨提示：点击查看大图）

　　该链可以有四种结果：如果最终节点是目标节点，则该链是完整的；如果已知最终节点不是目标节点，则该链是死胡同；如果在该链的前面出现了一个被命名的中间人，则该链是循环的；如果最终节点是未知的，因为一个中间人没有命名另一个中间人，则该链是删减的。链的长度是指它所包含的中间人数量，只能直接计算完整链和不完整链的长度，但可以估计删减链的长度。

　　首先，目标的特殊性既影响链合并的可能性，也影响可以观察到的结果类型。当目标是一个具体的个体时，由独立的启动者发起的链更有可能共享中间人（即会合并），而目标比较宽泛或目标不明确的链则不太可能共享中间人。

　　第二，限制每个启动者或中间人只识别一个中间人，保证每个启动者只与一个链相关联（即没有分支）。

　　第三，当中间人的选择范围受到限制时(如在一个组织内部)，链会比范围不受限制时短，会涉及更多的共享中间人。

　　第四，向中间人提供网络链信息会影响循环的可能存在。如果已知完整信息，则不太可能存在任何长度的循环，而如果只知道发送方，则不太可能存在2个循环(即，互换)。然而，尽管提供链信息可以减少循环的可能性，因为中间人提名指令通常不明确禁止中间人选择先前的中间人作为未来的中间人，循环仍然是可能的。

　　最后，当启动者或中间人不选择下一个中间人的原因不明时，就可能无法区分因无回应而终止的链和因死胡同而终止的链，因此是不完整的。

　　数据收集注意事项

　　作者使用MiSPI（密歇根州学校项目信息）项目作为案例研究来检查网络链数据收集过程。重点放在收集网络链数据的设计和策略上，这些数据涉及收集未观察到的整个网络中的路径。网络链数据可以是定量的或定性的，并且提供了相对于自我或整个网络数据的一些优势。作者概述了收集网络链数据时必须考虑的一些有关设计的注意事项，以及在MiSPI项目中成功收集网络链数据的策略。

　　过去使用网络链数据进行的研究，发现在数据收集中存在多个决策点，这些决策点会导致设计的变化。将这些决策点整合到一个框架中，我们确定了七种类型的网络链数据收集设计，它们由七个决策点来区分：

　　(1) 是否以及如何指定目标；(2)每个受访者可以选择多少个中间人；(3)受访者可以选择的中间人是否有范围限制；(4)是否尝试确认中间人和受访者之间的关系；(5)数据收集模式；(6)中间人是否知道网络链的信息；以及(7)起始链或中间链终止时是否提供原因。

　　七种可用的设计对于可以收集的网络链数据的类型以及可能具有的特征都有不同的含义。这表明研究人员收集网络链数据的方式有很大的灵活性，但研究人员也必须仔细考虑他们选择的设计与他们的研究问题和分析需求的匹配。

　　例如，因为经典和改进的小世界设计定义了特定的个人目标，所以它们非常适合回答这样一个问题：两个互不认识的个人之间有多少度的分离？相反，由于搜索和搜索-混合设计仅定义了一种类型的目标，因此它们非常适合回答这样一个问题：个人如何在其网络中搜索特定类型的信息或资源？

　　数据收集策略

　　收集网络链数据是复杂的，因为它不仅涉及到从启动者那里收集信息，而且还涉及到从一系列中间人那里收集信息。因此，除了专门的设计注意事项外，这种形式的数据收集可能需要专门的策略。考虑到数据的关系性质，缺失是网络分析中的一个常见问题。网络链数据也不例外，因为链上任何中间人的缺失都会导致数据被审查。因此，在收集这些数据时，实施提高参与者响应率的策略至关重要。根据收集MiSPI项目网链数据的经验，作者提出三点建议：

　　建议1：采用典型的调查策略来提高回复率，包括提醒和激励措施。提高回复率的典型调查策略包括向参与者发送提醒和为完成调查提供激励措施。从MiSPI项目中获得的每周回复率数据表明，电话提醒使参与率明显提高。在收集网络链数据时，采用这些策略尤为重要，因为它们可以减少删减链的数量。然而，由于这些策略必须在每一次数据收集时采用，它们也会导致网络链数据收集所需的时间大大超过其他类型的网络数据收集。

　　建议2：在可能的情况下，向中间人披露推荐人程序。在设计网络链条数据收集时，一个考虑因素是，是否向中间人透露链条的信息。在MiSPI项目中，在可能的情况下，向中间人推荐他们可以作为提名的个人是特别有帮助的。具体地说，知道推荐人名字的中间人比那些不知道推荐人名字的中间人更有可能参与这项研究。然而，在招聘中加入这种个人风格确实需要一些超前的规划。实施这一建议可能会引发伦理问题。在MiSPI项目中，违反保密性的风险是最小的，因为推荐人认为他们指定的中间人是值得信赖的。

　　建议3：允许答复者指定组织中间人的名字，并执行将组织领导人归类为代表的程序。过去大多数网络链数据收集的经验例子只允许参与者说出个人的名字。然而，特别是当研究人员对了解搜索过程感兴趣时，允许启动者和中间人是组织可能很重要。在这些情况下，通常可以指定一名组织代表作为下一个答辩人，尽管非正式组织(如俱乐部)或超大型组织(如跨国公司)可能会面临挑战。来自MiSPI项目的数据表明，这些被认为是领导者的回复率略低，但总体上仍然很高。

　　网络链数据以三种主要结果结束：完整链(即链达到预期目标)、不完整链(即链未达到预期目标)和删除链(即过早停止数据收集)。与数据收集和分析相关的选择对区分这些不同的结果具有潜在的影响。根据MiSPI项目网链数据的经验，作者提出两点建议：

　　建议4：询问启动者和中间人跳过提名问题的原因。他们是否(a)没有中间人可供提名，或(b)有中间人可供提名，但不愿提名。由于启动者和中间人经常会跳过提名问题，在这些情况下，区分删减链和不完整链是很重要的。在MiSPI项目中，增加了一个简单的问题来收集启动者和中间人不回答的原因，能够区分死胡同式的不完整链和删减的不完整链。

　　建议5：所有长度的循环在网络链数据中都是可能的，而且应该被允许。不完整的网络链以循环结束的情况并不少见，来自MiSPI项目的数据表明，这些链可以是任意长度。虽然1次循环可能看起来有违直觉，很可能是测量误差的结果，但对受访者的后续采访证实了1次循环是真实存在的，特别是在搜索链中，当受访者将自己视为权威或与人接触时。

　　结论

　　网络链数据从20世纪60年代就开始使用。这些数据对于捕捉未观察到的整个网络中的分离程度或搜索过程等现象特别有用。然而，改善网络链数据质量的数据收集设计和策略的推荐实践仍然相对抽象。在本文，作者勾勒出一个设计框架，并描述用于收集高质量网络链数据的具体策略。通过这样做，鼓励更多地思考设计决策对收集网络链数据的影响，并在未来对收集这些数据的工作进行更透明的描述。