生命是什么?“个体信息理论”重新定义个体生命_风闻
返朴-返朴官方账号-关注返朴(ID:fanpu2019),阅读更多!2020-05-16 17:02
个体之于群体,如滴水之于百川。但在对生命本质探索中,科学上个体的概念一直模糊不清,既没有通用定义,也没有明确划分标准。最近圣塔菲研究所现任所长 David Krakauer 发表了一篇文章,基于过程哲学和演化格式塔方法,他认为个体是一种能将自身信息从过去传播到未来、并保持一定时间完整性度量的集合体,并用信息论给出了概念的形式化定义。从公式中可以推导出原则上不同的三种个体:有机个体、群落个体和环境驱动个体,每种在环境依赖和信息继承程度方面都有所不同。即使没有体细胞等明确物理边界,在合适的观察者和测量下,从分子到文化,一些多层次、高分布的适应性系统,也可以被识别成一个生命个体。文章关于个体和环境关系的刻画也为定量研究生命提供了新的理论基础。
撰文 | 十三维
审校 | 刘培源
编辑 | 张希妍
来源:集智俱乐部
目 录
一、从生命到个体:信息论的建构
二、形式化个体
三、个体度量:一个可视化例子
四、个体信息理论的展望与意义
结语:人类个体与社会
生命本身让人充满惊异,无数个生命更是如此。
在生物学上,人类和大猩猩、海豚、狮子、蜜蜂、蚂蚁等一样都是社会性动物,群居利他,不能独存,存在极其复杂的群体行为模式。在有着庞大而悠久历史的种群面前,个体生命似乎微不足道,甚至人们一谈起生命,都默认至少是一个物种,或者干脆超越所有物种之上的某个整体。
图 1:作为典型社会化动物的猫鼬家族(狐獴)
但有趣的是,同样作为生命,一种社会化动物,尽管对人类是否是具有像蜜蜂和蚂蚁那样高度的社会性还有争议,但似乎从来没有哪一种动物能像人类那样注重个体价值。不管公权力怎么诠释,追求个体自由和自我实现都已成为这个具有共识想象力的物种越来越普世价值的一部分。对很多现代科学家,如动物行为学家和社会心理学家而言,人类就是一种“合作的物种”,在深处甚至会牵扯到复杂的演化博弈论和经济学研究视角解读。
其实远不止在生物学和心理学层面。之于社会学和政治学,对人类本性的追问,也往往在个体和群体二者之间展开。亚里士多德早就说过“人是城邦的动物”。先有个体(individuality),还是先有社会?这一历史之问,让如今人类社会政治理念之争的焦点,更是在自由主义和社群主义之间激烈而持久展开,从政治、经济、文化到生态全方位影响着整个人类发展前景。
可以看到,尽管个体与群体、甚至生命的关系如此重要,但关乎个体最根本一些问题依然还没有被解答,甚至根本没有认真人追问这个问题:
——究竟是什么才是个体?
对这个问题的回答不仅关乎个体,关乎人类整体,更是关乎生命意义本身。
在生物学中通常存在的个体性假设,就像经典时空观一样,往往只是基于天然的生物学特征,不仅没有共识,也没有严格的量化方法来识别。
最近,圣塔菲研究所现任所长 David Krakauer 在Theory in Biosciences期刊领衔发表了一篇文章,对个体本质进行了回答。他认为个体是一种能将自身信息从过去传播到未来,并保持一定时间完整性度量的集合体,并用信息论和图示给出了概念的形式化定义。个体信息理论从信息熵和互信息公式中可以推导出原则上不同的三种独特形式个体:有机个体、群落个体和环境驱动个体,每一种在环境依赖程度和信息继承方面都有所不同。
这种新型的进化格式塔方法允许扩大生命的定义范围,即使没有细胞壁或体细胞等物理边界组织,在合适的观察者和测量原理下,从分子到文化的所有组织层次,一些可以通过粗粒化减少不确定性的多层级、多尺度、高分布适应性系统,也可以被看作是一个生命个体。
论文题目:
The information theory of individuality
论文地址:
https://link.springer.com/article/10.1007/s12064-020-00313-7#Sec10
图2:论文通讯作者、进化生物学家、圣塔菲研究所所长 David Krakauer
一、从生命到个体:信息论的建构
虽然没有任何物理或化学理论能直接预测生物行为,但如果不把生物系统分解成更基本组成部分,我们就很难理解生命。从物质还原论和涌现论角度研究生命,会遇到计算复杂性问题(Defranceschi & Le Bris,2000),究竟还原到什么程度,才能更有效从聚合体预测生命体行为,也至今是一个难解之谜(Anderson, 1972; Krakauer & Flack, 2010a; Flack, 2017b)。
但显然,个体是生命一个不可忽视的层次。我们几乎无法想象,如果没有单位或个体的概念,怎么能建立起一门生物科学来,如果不知道怎么观察和测量个体,又怎么可能去研究新陈代谢、行为或基因组的规律。
对生命本质的科学研究,始于二十世纪著名的物理学家薛定谔(Erwin Schrödinger)。他在名著《生命是什么?》中,试图通过普遍的物理规则尤其是以信息视角来探索生命的延续性。然而和大多数人一致,他对单个生物体的存在依然默认了强烈的先验假设。具有外部组织边界、能够新陈代谢、能够自适应环境、通过遗传变异延续自身……等等这些被归纳的可见外部特质,都默认为个体的基本属性,仿佛不证自明。
图 3:以”薛定谔的猫“闻名世界的物理学家薛定谔,同时也是现代生物学的奠基者
但这些归纳特征都很容易找出反例。例如对社会性昆虫以及一些植物、真菌和原核生物等物种的研究表明,个体可同存于多个组织层级。具有不同组织边界的不同的蚂蚁形成称为群落的聚集体,其中大多数工蚁并不进行自我复制,整个蚁群也不进行复制,只是存在局部复制。但从过去到未来这个群落依然具有某种连续特征,仿佛一个智能整体,甚至计算机科学家都从中学到了一种最优路径算法——蚁群算法。
此外,在微观层面连是生物与否都一直存有争议的病毒,却能够自我复制、适应、甚至变异,具有某种持久性身份,从而与“宿主”环境区分开来。最近一些研究表明,这些病毒能像微生物一样形成集体单位以促进感染(Andreu-Moreno & Sanjuán, 2018),因此单个病毒并非传统意义个体生命,但整体却似乎是一种“空想个体”(chimerical individuals)(Krakauer & Zanotto, 2006)。
对比对的生命研究,例如前面薛定谔认为生命本质在于信息,是一个基于分子和化学之上的负熵系统(甚至我们还能联想到关于意识本质的整合信息论),上面关于个体的假设和描述显然过于主观和表面了。
如果我们想识别所有可能的个体的话,就需要抓住个体的更本质的特征。就像一个外星人刚刚降临地球时,对地球生命形式一无所知一样。
华裔科幻作家刘宇坤在短篇《异世图鉴》曾记载了许多新奇的外星生命个体,例如通过蛋白质链记录交换思维、甚至原子链式反应衰变的轴基生命;而科幻大师阿瑟·克拉克在《童年的终结》中也描述了一个作为集体宇宙生命的人类未来。
这些都是科学幻想。然而即使是现代科学家们也确实在面对诸多类似棘手问题:一些生态聚合体如微生物垫(Microbial mat)算不算一个个体?人类创造和数字生命和生物装置艺术算不算个体?甚至,人类的文化和技术这些松散的集合体算不算个体?——如果是,对后者的回答,就会产生技术伦理问题,也许人类对待机器人就需要像宠物那样了。
退一步讲,人类自身就是与包含几乎与体细胞一样多的共生微生物的聚合体(Andreu-Moreno&Sanjuán, 2018),但直到最近”共生总体“(holobiont)概念的出现(Gilbert, 2012)之前,人类细胞生态系统中的微生物部分通常都不被认为是人类个体中的一部分。
图4:海绵的共微生物体
既然个体的生物学组织特征如此复杂,在任何组织层次上都可能出现,可以互相嵌套和分布呈现,那就要求我们放弃对单一层次或对象的偏好,以及对种种生物特征的依赖,而专注与个体自身的信息形式的特性。
因此以下问题显得尤为重要:如何依不赖于细胞膜之类的生物特征有效识别出个体?
David Krakauer 等人认为,个体是将信息从过去”传播“到未来的聚合体,具有时间上的完整性,因此不同个体类型只是一个程度问题。于是前面问题就变成了:如何将个体形式化?
这就需要基于信息论和数学的第一原理进行构建和推演了。
二、形式化个体
信息的起源
传统的个体观念是从已存的客观对象静态建构的,先有实体,再列举实体种种属性,这是一种历史悠久”形而上学实在论“。然而在真实的自然现象动力过程中,对象属性只是过程信息的遗留的痕迹。因此作者采取了与以往不同“过程哲学”观(Rescher, 2007),将个体视为一个一般的随机过程。这一思想最早始于著名哲学家和数学家怀特海。一个随机过程可能是一个随时间变化的化学浓度的矢量,各种细胞类型的丰度,或与观察相关行为的概率。然而对于个体系统来说,它还是一个过去传播到未来、具有时间完整性的信息聚合体,因此这一符合实用主义的操作型定义,就可以和信息论对于熵的解释联系起来。
在信息论的起源和发展过程中克劳修斯、玻尔兹曼、冯·诺依曼做过突出贡献,但最核心的奠基人是克劳德·香农,他通过类比热力学熵对信息的研究可以说为我们整个信息时代奠定理论基础。
图5:信息论创始人克劳德·香农
香农在度量信息时采用了下面最简形式的定义:对随机变量 ,信息熵 H 衡量它处在可能状态的不确定性程度,即 的信息量:
其中 i 是系统可能的状态,P(si) 是这些状态的概率。系统不确定性越大,确定系统状态所需的信息量就越大。例如一枚正常硬币有正反两个可能状态,概率都是0.5,测得信息熵大小就是 1;如果硬币一面概率更大,那么所需要的信息就小于 1 比特了。
在确定信息量后,为了获取信息通信过程中的价值,香农引入了发送-接收者(Signaler–Receiver)模型,用两个随机变量 和 表示。信号发送方和接收方之间传输的最大信息是由互信息(Mutual Information)I 给出的:
其中其中 H() 和 H() 是信号的熵,H(;) 是两个变量的联合熵:
当 和 不相关时,联合熵最大。因此当互信息在 和 都很大时,这时它们是高耦合的,联合熵 H(;) 很低。
互信息 I 测量在 和 之间通过通信信道共享的信息,可见由- 模型, 中结构的唯一来源被假定来自 。
互信息 I 另一种的表达方式是:
其中 H(|) 是 的条件熵,或 中不在 中的信息量。因此如果 中的所有信息都来自 ,那么有:
H(|)=0 ,且 I(;) = H()
假设一个作为随机变量的发送者 由两部分组成 = {1,2},那么可以用链式法则分解互信息(Cover & Thomas, 1991):
其中第二项的条件互信息定义为:(2;|1) := (|1) − (|1,2)(上面等式中符号“:=”代表定义)
有了以上信息论基础后,要对系统与环境之间的交互作用进行建模,还必须考虑更复杂的情况,因为对个体系统研究要涉及个体和环境两个信道。
让 和 ε 分别代表个体系统和环境的状态集,个体的动态过程受自身状态的影响,但也可能受到环境状态的影响,对个体和环境信道建模就是 φ:ε × → 和 ψ: × ε → ε。
其中 φ(e,s;s’) 表示当前系统和环境状态处于 s 和 e 时,下一个系统状态 s’ 的概率。
ψ(s,e;e’) 表示系统在当前状态 s 和给定环境 e 下,环境下一个状态 e′ 的概率。
约束假定假定对所有 e,s,s’,有 φ(e,s;s’) ≥ 0 且 Σφ(e,s;s’) = 1, ψ 同理。
可见 φ 和 ψ 构成了系统-环境交互机制模型的核心。如果选择一个概率分布 μ 以状态 s 和 e 开始这个交互过程,则得到状态集(k,k),k=1,2,3…,显然在 × ε 满足:
当然,我们可以从过程的分布(k,k)得到:
以上,在将信息度量,如互信息,应用于过程的变量(k,k)后,就能量化系统和环境之间的信息流。这个过程的因果结构如图 6 所示,它蕴含了很多独立条件,例如,n+1 条件独立于给定 n-1,n-1下的 n,n。
图6:系统环境作用因果图
信息型个体
从前面个体形式化信息论的讨论中可以看出,它与道金斯的复制子概念不同,关注的并非是个体允许复制的基本特征,而是个体在促进复制中能起到什么作用。作者的基本观点是信息个体随着时间向前传播,并不断减少不确定性,这也是玻尔兹曼和冯·诺依曼思想的自然延伸。
在增加数学约束后,个体的形式定义的性质和内涵可以更进一步描述如下:
系统-环境分解:类比于格式塔心理学的图形-背景关系,一个动态的可测集合,可以粗略划分为个体系统和环境两部分(主体-环境)。这种划分可容许各种系统层次存在,如自然和生物上细胞器、细胞体,乃至生物体、种群、文化。信息个体:一个一般离散的随机过程,未来状态由当前状态的子集决定的。当所有状态分为个体和环境两部分、并分别具有状态 和 时,就足以预测下一个个体状态 +1,形式上可以用互信息来量化:
这个公式表达在时间 +1 时,个体 +1 有多少信息来上一个时间段的系统自身(前代) 和 环境信息 。其中程的互信息可以有两种方式分解:
每一种分解都可以解释为在系统和环境之间观察到不同规律分布的一种配置,并允许定义出不同形式的个体:先从第一种分解生物体内源决定(Endogenous determination)考虑:
第一项 (+1;) + (+1;|) 是系统对自身状态影响(下代或下一时间)的一种度量,在所存在时间间隔中,连续系统状态之间所有观察到的依赖关系都归于系统自身。Krakauer 和 Zanotto (2006) 将量 (+1;) 称 为自主性(autonomy),下面用 ∗= (+1;) 表示。当个体能控制自身时,它应该是高的。(+1;|) 则可以理解从环境流向个体的新信息。若无则说明一个系统是信息封闭的,因此这个量衡量了个体受环境控制的程度, 用 nC = (+1;|) 表示。注意,封闭性并不要求因果独立,只是说明所有来自环境的影响都是个体可以预测的。与内源决定相对的是第二种分解,环境驱动(Environmentally driven),即环境通过结构梯度驱动个体系统。换句话说,个体自身经历并不像环境那样,会对边界条件施加那么强有力的影响。在分解 (+1;) + (+1;|) 中,观察到的影响主要归结为环境因素 (+1;) ,只有余下的 (+1;|) 才是由于个体自身的影响,这可以理解为系统自主性的另一种概念 (Bertschinger et al.,, 2008),下面将用 A 表示。在假定个体状态与环境之间的所有依赖关系都归于环境控制的前提下,它是有效的。
以上这些属性确定的三个量,每个量都可以对应一种个体类型。
群落个体 := (+1;|)(Colonial Individuality)有机个体 ∗ :=(+1;)(Organismal Individuality)环境驱动个体 nC := (+1;|) (Environmental Determined Individuality)
不过,为了严格形式化不同类型个体,还需要在更细粒的尺度上(Fine-grained decomposition)考虑它们。
在使用互信息的链式法则,将影响归因于环境或系统时会遇到了一个模糊的问题:部分信息分解问题(Williams & Beer, 2010; Bertschinger et al., 2013)。通过引入独有信息、共享信息和交互信息的概念可以解决这点[1]。
在时间 n+1 的未来个体状态与时间 n 个体与环境的联合状态之间的互信息,可以可以被分解为四项:
这四项出现在前面从链式法则中得到成对的互信息和条件互信息中:
在本文研究定义的语境中,这四个词分别含义如下:
a 个体信息 (+1;∖):只来自个体自身并由系统自身维持;b 共享信息 (+1,,):个体和环境之间共享的信息;c 环境信息 (+1;∖):环境对个体影响的信息,狭义上即感官的信息流;d 交互信息 (+1;,):协同信息,只存于个体系统和环境的交互作用中。
这些分解只是作者视角下一种形式,在 Journal Entropy 中可以看到其他替代性见解(Lizier et al., 2018)。但基于此,接下来就可以严格定义三种不同形式的个体了,并且能量化每种信息的对不同类型个体的独特贡献。
例如,系统和环境共享的信息(如自适应信息)、个体或环境独有的信息(二者不同的的存储器)以及以某种复杂方式依赖于二者交互作用的信息(如控制信息)。
有机个体 ∗
∗ = (+1;,) + (+1;∖)
当生物体能通过适应或学习与所处的环境共享重要信息时,它们就具有良好的适应性。此外有机个体还包含了有效运作时所需要的大量私有信息。通过最大化这种度量,我们能够在环境中识别出复杂的有机个体。
群落个体 A
= (+1;,) + (+1;∖)
许多生物体,如微生物,只与它们所处的环境共享少量的信息。它们含有调节机制,与生物和非生物环境之间的持续交互作用来实现适应。通过最大化这种度量,我们能够识别出这种 “环境调节的聚合体”,即群落个体。
环境驱动个体 nC
= (+1;|) = (+1;,) + (+1;∖)这个指标量化了个体在时间演化中被环境决定的程度。当度量降到最低时,个体对环境完全不敏感,因此既不具有有机体的形式,也不具有群落个体的形式,没有任何实质意义上适应性。它通过与生成结构的系统的 交互作用,表征了环境记忆的持久性,例如产生漩涡的流体中的温度梯度。
环境编码
= (+1;,) - (+1;,)
这一度量标准背后的直觉是量化群落和有机体个体之间的差异,由个体与环境的共享信息(例如适应性信息)和交互(例如,控制信息)之间的差异来捕捉。
思考这个问题的一种方式是,在系统中,有多少信息是被编码针对环境的先天信息(如遗传信息),有多少信息需要通过与环境持续交互作用来编码。
当尺度较大的时候,自然性占主导地位。当度量下降时,教养(nurture)则开始主导自然。
三、个体度量:一个可视化例子
为了更好理解这些个体度量,原文举了一个可视化例子进行量化研究。
遵循前面个体形式信息定义和图 6 中介绍的一般结构,考虑两个初始状态为 {-1,+1} 的二进制集合 和 ,其中状态按照指定的条件条件分布同步进行更新。系统状态 +1 初始条件包括 、 、 三个耦合参数,环境参数状态则是 、、。
:个体系统状态与自身其前一状态 的耦合参数,如生物各种内部调节系统。:个体与环境交互作用的耦合参数。如生物的自适应性。:调节原个体系统与环境状态综合影响的参数。是一种高阶相关性。如并非直接和生物交互作用的自然选择或各种偶然因素。
把每一种个体度量标准都用到这个随机过程上。对随机环境分析结果如图 7 所示,对有记忆环境结果如图 9 所示。
随机环境下三种个体
在随机环境中,环境状态和个体状态、自己之前状态都不相关,故有 = = = 0。如图 7 所示,展示了两步时长的互信息、信息熵,与群落、有机和环境驱动三种不同个体在不同 、 、 下的状态图示。
图 7:随机环境 = = = 0 下,系统互信息(Total_MI),系统熵(H_sys),群落个体 (A) ,有机个体(A_star)和环境驱动个体 (nC))对 , 和 图示,下标 在图中已省略。其中的系统信息值指针:越偏向蓝色越低,越偏向黄色越高
当 =0 时,个体和环境时间序列之间没有任何额外高阶相关性(如个体不能改变环境)。这时当 和 较高时,理论上最容易检测到群落个体和有机个体。当也正因为和环境没有高阶相互作用,这两个参数就都代表了系统状态唯一信息,因此两种个体类型此时变得不可区分。只有随着更多信息不断传递到未来,它们之间的区分才会变得更明显。
例如,最近海洋生物学家们在澳大利亚西海岸的 Ningaloo 地区出海考察,发现一只长达 47 米的巨大水母(Apolemia)[3]。但它其实不是一个简单的独立的有机个体,而是由数百万个无性繁殖的个虫(zooids)互相连接组成的巨型生物群落,每个部分都负责不同的工作,有的负责捕食、就的负责消化、还有其它的个体掌管感知、运动、繁殖等等不同功能。
图8:长达 47 米的水母群
显然,如果这一生物存于与外部没有交互的环境中,例如在博物馆或小说中,我们是很难分清它究竟是一个有机个体,还是一个群落个体的。但以目前标准判断,它是一只典型的群落个体。
有记忆环境下的三种个体
所谓非随机有相关性的环境,即有规则和记忆的环境下,个体和环境存在着持续交互作用。
在图 3 中,环境耦合参数 =2, = = 0,同样展示了互信息、信息熵,与群落、有机和环境驱动三种不同个体在不同 、 、 下的状态图示。
图 9:有记忆环境。两步时长的互信息(Total_MI),系统熵(H_sys),群落个体 (A)),有机个体(A_star)和环境驱动(nC)。在具有相关性环境 = 2, = = 0 下,对不同的 , 和
因为此时个体能够适应环境,在较高的 || 和较低的 下,环境不因为生物改变但会持续进行交互作用的情况下,即可以观察到较高值的有机个体 A*,以及较低值的群落个体 A 和环境驱动个体 nC。(换句话说,正因为存在交互,是在随机环境情况下由高 nC 值代表的环境中信息流到了个体系统、并被内化到个体系统中去了。)
