基于因果追溯的体系贡献率分析方法_风闻
Science_北京-不惧过往,不畏将来!2020-05-18 10:36

体系(System of Systems,SoS)的概念已经出现很长时间,许多不同领域的学者和组织也从他们各自的领域背景和角度提出了体系的定义,然而目前还没有一个被普遍接受的定义。体系是系统的联接,在系统联接的体系中允许系统间进行相互协同与协作,如信息化战场的C4I(Command, Control, Computers, Communications, and Information)与ISR(Intelligence, surveillance and Reconnaissance)系统。体系是系统的综合,系统综合以系统的演化发展、协同与优化为目的,最终达到提高整体效能的宗旨。体系是相互协作的系统的集成,这些组成使系统具备两种附加特性,即运作的自主性与管理的自主性。美国防部认为:“互相依赖的系统组合链接,提供的能力远大于这些系统的能力之和”。

体系贡献率是指在给定条件下评估对象对体系完成规定任务所发挥能力和达到效果的贡献程度,是评估对象对体系内各个系统能力及体系效能的影响作用或涌现效应的度量。体系效能是在一定条件下体系完成规定任务程度的度量。体系具有整体涌现性、适应性、进化性、不确定性等显著特点。事实上体系效能是各个影响因素(包括体系内各成员性能以及其他影响因素)复杂交互作用而涌现产生的整体性效果,它包含了体系涌现性的内部机制。而对体系(尤其是武器装备体系-Weapon System of Systems, WSoS)贡献率进行准确、有效地建模和评估是体系发展与优化的前提。开展体系贡献率分析与评估工作,需要度量体系完成规定任务的程度,更需要客观有效地刻画各个影响因素及其交互效应对体系效能的贡献率,以便揭示体系涌现性、适应性和进化性等方面机理和特性。
目前体系贡献率研究方面还处于起步阶段,但已经开展的研究工作有:
1)通过剖析体系贡献度的基本概念,界定了其内涵和分类,提出了开展体系贡献评估工作需要遵循的一些基本原则;
2)通过构建参量之间的影响关系邻接矩阵来分析体系贡献度;
3)基于模糊综合的证据推理方法进行体系贡献度评估建模;
4)在给出贡献度定义的基础上研究了贡献度的复杂性特征,分析了装备对体系能力的影响模式,提出了贡献度多维对比分析方法,给出了基本框架和较为具体的几种测量方法;
5)从任务、能力、结构、演化出发构建了武器装备体系贡献度分析的总体框架,提出了基于“探索性分析+”的武器装备体系贡献度评估流程。
上述研究虽取得了一些成果,但还存在两个不足:
1) 当前贡献度分析很少考虑体系影响参数之间的交互关系,不能体现体系的演化性和涌现性特征;
2) 没有从参数与效能之间的因果追溯关系上进行贡献度分析,无法显式地表现出参数与效能直接贡献关系。
为了获得体系贡献度评价效果的高可信度,一方面在贡献度评估分析过程中,需要充分考虑体系影响因素及其参数(本文统称为影响参数impact parameter)交互效应,它体现了体系涌现性和演化性;另一方面,需要从影响参数与效能之间的因果追溯关系上进行贡献度分析。因此,本文提出一种基于因果追溯的体系贡献率分析方法。首先,借鉴Granger因果检验分析思想,利用数据分组处理 (Group Method of Data Handling, 简称GMDH)建立影响参数值与体系效能指标值之间的优化函数,形成能够表达影响因素到体系效能指标复杂数学关系的代理模型;然后,基于Sobol指数法,通过一阶因果追溯指数和全局因果追溯指数,分析影响因素及其交互效应对体系效能指标的贡献率,构建了基于因果追溯指数的体系贡献率分析过程模型。最后,通过案例说明了该方法的有效性。
1.基于GMDH的影响参数与体系效能代理模型
代理模型可以对一组输入输出数据之间的关系用具体的数学表达式或数学模型表示。为精确拟合体系输入输出数据之间的关系,提高计算效率,我们基于GMDH构建影响因素到体系效能指标的代理模型。首先以某一具体任务下体系影响参数值为输入数据,采用相应评估方法计算出该任务下体系效能指标值为输出数据,借鉴格兰杰因果检验分析思想,然后利用GMDH来找出输入数据与输出数据之间的最优函数,构建影响因素与体系效能指标关系的代理模型。
具体地,借鉴Granger因果检验分析思想:Granger因果检验是利用时间序列的关系来鉴定两个因素是否具有因果关系。其基本原理是:假设多变量模型是由输入变量X和输出变量Y组成,如果变量X有助于预测Y,即根据Y的过去值对Y进行回归时,如果再加上X的过去值,能够显著地增强模型的回归解释能力,则称X是Y的Granger原因。借鉴Granger因果关系定义,利用GMDH算法可通过检验模型预测能力是否显著变化来判断输入参数与输出参数之间是否存在因果关系,即:如果变量Y的现在值用X和Y的过去值预测,比只用Y的过去值预测要好,就称X是Y的原因。基于此,我们可以给出了GMDH因果关系定义。
假定容量为的样本数据可划分为三个子集,并且定义
,则样本数据可表示为:

对于给定的多变量模型,设输入向量(时间序列)为
,
表示第i个输入变量所形成的时间序列,样本数据为w,输出向量(时间序列)为
,其可能的原因信息全部包含在
中。定义外准则的一般表达为:

其中
表示在数据集G上估计得到的系数,
,
,
,
。记
,
。如果
则称
是Y的GMDH原因的构成因素;如果
则称
是Y的GMDH瞬时原因的构成因素。
GMDH因果关系可检验复杂模型中多维变量间因果关系和强弱程度,识别出复杂模型中同时存在的多个因果关系,进而从整体上了解模型变量的层次、结构和功能。由此,GMDH因果关系可以用来分析复杂体系中影响因素到体系效能指标的复杂追溯关系。
GMDH是自组织数据挖掘的核心技术。GMDH将数据分为训练集和测试集, 在训练集上使用内准则进行参数估计得到中间待选模型, 而在测试集上使用外准则在中间候选模型进行选择, 这个过程不断重复直到外准则值不能再改善才停止, 这样的停止法则可以保证在一定噪声水平下得到数据拟合精度和预测能力最优平衡的函数模型,GMDH产生最优函数模型过程如图1所示。

图1. GMDH产生最优函数模型过程
基于GMDH产生最优函数模型过程,以影响参数值作为GMDH的输入,以体系效能指标值作为GMDH 的输出,形成初始数据样本集,就构建由影响参数到体系效能指标之间的GMDH代理模型,具体过程如下:
1)将初始数据样本集(N个数据样本)分为训练集A和检测集B,并且满足样本总数
。
2)定义出因变量(输出)和自变量(输入)之间的一般函数关系, 作为“转换函数”. 这里采用K-G多项式。以三输入单输出模型为例,可取二次K-G多项式:

3)确定初始模型. 以K-G多项式为转换函数,它的子项作为网络结构中的m个初始模型。例如当m=10时,则有:

4)确定外准则. 从具有外补充性质的可选择准则中选出一个(或若干个)作为目标函数, 也就是外准则。
5)产生第一层中间模型。在图1中,以传递函数
, k=1,2,…,m为第一层中间模型,它们由自组织过程自适应产生。第一次中间模型因所含变量个数、函数结构的不同而不同。同时在训练集A上估计
的参数。
6)筛选中间层模型。根据外准则,在检测集B上对中间层模型进行筛选,选出的中间模型
将作为网络下一层的输入变量。
7)形成最优代理模型。重复第5、第6步,最终形成具优化函数的代理模型。在图1中,以第三层后的状态为例,在模型y*中变量
的数目≤4,而网络初始变量的个数为5,初始变量
在筛选中被自动淘汰。
通过上述过程,以实际影响参数值和效能指标值作为输入,构建影响因素到体系效能指标的GMDH代理模型,能够较客观准确地表达具有交互效应和涌现性特征的影响因素与体系效能的关系。
2. 基于因果追溯的体系贡献率分析过程模型
借鉴格兰杰因果检验思想,利用GMDH构建出来的代理模型虽然能构建出各个影响因素与体系效能指标之间的函数关系模型,但并不能精确地表达出这些影响因素对体系效能指标的因果影响大小(即贡献率大小),无法对体系影响因素对体系效能贡献率提供定量分析支撑。有必要进一步通过全局因果追溯来定量分析影响因素对体系效能指标的影响大小。为此,通过影响参数的偏方差占体系效能指标总方差比率来表示贡献率。
1) 基于Sobol的体系贡献率追溯指数
Sobol指数法是由俄罗斯学者I.M.Sobol提出,并以他的名字命名的一种基于方差分解的因果追溯分析方法。该方法的核心思想是方差分解,把模型用参数及参数之间组合的方式表示,通过计算单个输入参数或输入参数集的方差对总输出参数方差的影响来分析输入参数的重要性以及输入参数之间的交互效应。
由Sobol指数法生成的Sobol序列是基于一组直接数
构造的随机序列,设
是小于
的正奇数,则

以及
的生成需要借助系数只为0或1的简单多项式,多项式可表示为:

式中,p为多项式的度数,
为多项式系数。对于
,由此推导上式求得
:

式中,
表示二进制按位异或,对于
,递推公式为:

综合以上推理,可以利用以下公式生成序列

式中,
是n的二进制形式。
假设数学模型为
,该模型平方可积。则该模型可分解为单个参数及参数之间相互作用的子项函数之和:

其中
,
属于n维单位立方体
,上式中一共含有
个子项。如上式满足:

其中,
,则模型
具有唯一的分解方式。通过积分方法,求得各个分解函数。
两边对X求积分,可得到:

两边除
以外积分得到:

两边除
、
的其他参数积分可得:

以此类推,可以得到各个分解函数。
基于以上条件,Sobol的因果追溯分析方法定义了输入参数偏方差和输出参数总方差,并通过偏方差占总方差比率来表示模型参数及其交互作用对目标响应的影响程度,其中模型
的总方差D为:

各子项(输入参数)的偏方差
为:

参数的因果追溯指数
为:

因果追溯指数满足
。
式中,
表示参数
的一阶因果追溯指数,描述了参数
对输出的贡献率。参数的一阶因果追溯指数越大,表示该参数的变化对输出值的影响越大。
体系的一个重要特性是体系的涌现性。体系影响因素的交互是实现体系涌现性的一个重要途径,因此,体系的涌现性很大程度上取决于体系影响因素之间的交互效应。为描述影响因素的全局影响,即某一影响因素与其它因素的交互对输出值的贡献度,引入了全局因果追溯指标
。全局因果追溯指标包含了影响参数之间的交互效应。若一个输入影响参数的全局效应指数很小,表明该因素不仅自身的变动对输出变动影响小,而且该因素与其它因素之间的交互效应也很小。因此,可以对全局效应指数小的参数取固定值或者忽略,减少可变指标个数,从而简化模型。
则上述一阶因果追溯指数计算可用以下公式:

全局因果追溯指数:

从上述分析上看,一阶因果追溯指数可以体现体系影响因素对体系效能指标的贡献率。全局因果追溯指数不仅体现了该因素直接对体系效能的贡献率,同时也体现了该因素与其它因素的交互效应对体系效能的贡献率。
2)基于因果追溯指数的体系贡献率分析模型
体系效能是体系完成规定任务的程度,它要求在一定条件下对任务的完成程度进行量化度量。体系效能是体系影响因素作用以及体系涌现性的结果,同时由于体系具有显著的不确定性,在特定条件下的体系效能评估结果,首先,无法获得影响因素对效能的贡献率,更没有办法获得影响因素之间交互效应对体系效能的贡献率。其次,效能评估过程中获得的数据样本量不足以分析计算影响参数的一阶因果追溯指数和全局因果追溯指数。因此需要在进行体系效能评估的基础上,通过基于GMDH的影响因素到体系效能指标的代理模型,进行数据样本扩容,再通过一阶因果追溯指数和全局因果追溯指数计算影响参数对体系效能的贡献率,形成基于因果追溯指数的体系贡献率分析过程模型,其详细步骤为:
Step 1: 针对体系的任务场景,构建体系效能评估指标体系,确定体系效能评估模型。
Step 2: 初始样本集获取。确定各影响参数的取值范围,选用合适的取样方法生成N组初始输入变量,通过体系效能评估模型计算出相应的效能指标值。由特定条件下的影响参数值与相应效能指标值构成初始样本集。
Step 3: 初始样本集预处理。对各个初始样本值进行无量纲化处理,将样本值归一化到[0,1]之间。归一化公式为:

Step 4: 代理模型生成。以各初始样本中的影响参数值作为GMDH的初始输入,以通过体系效能评估模型计算得到的效能指标值作为输出,来训练GMDH,当拟合精度达到预先设定值,得到相应的代理模型,训练结束。代理模型拟合精度用均方误差(MES)和平均绝对误差(MAE)来衡量,MES和MAE的值越小,预测结果越好。其中
表示真实值,
为预测值,
为样本个数。
均方误差计算公式:

平均绝对误差计算公式:

Step 5: 样本扩充。利用拟蒙特卡洛方法扩充影响参数值,并且通过代理模型计算扩充影响参数值对应的体系效能指标值。
Step 6: 因果追溯分析。计算每个影响参数的一阶因果追溯指数及其全局因果追溯指数,获得每个影响因素对体系效能的贡献率,并对因果追溯指数进行排序,进而获得影响体系效能的关键成员性能参数。
3. 实例分析
通过案例分析验证基于因果追溯的体系贡献率分析方法。假设某体系效能指标及其影响因素如图2所示。

图2 某体系效能局部效能指标体系
对于信息保障能力而言,在不同方案
下,各个影响参数
的不同取值,利用蒙特卡洛方法生成容量为1000的样本,利用AHP方法可得出相应的信息保障能力
,见表1。
表1 不同方案下信息保障能力各个参数值

采用主成分分析、探索性分析技术分析各因素对上层指标的影响关系。依据从离散到连续
的探索性分析思路来分析影响参数对上层指标的影响,分析过程如下:
1)
因子分析。该阶段对影响参数进行筛选,获取影响上层参数的关键因素后,以
因子分析其对
影响的主效应和交互效应。
2)
因子分析。该阶段完成关键参数的
因子分析,依据计算结果进行参数的关联性分析,并获取参数取值区间的因果追溯区域,找出指标的影响规律。
在完成影响因素的主效应和交互效应分析之后,需要进一步探索影响因素对体系效能指标的敏感区域。将进行
到
因子分析,即每个指标分两段、取三种值级。以信息获取速度为例,其影响因素主要包括互操作性、信息共享度、通信兼容性以及系统反应时间等。互操作性RCS三种值级定为[0.1, 1, 5],信息共享度为[60, 130, 200],系统反应时间为[30, 55, 80],通信兼容性为[0.5, 0.75, 0.9]。可获得
和
因子下的主效应和交互效应,图3分别给两种情况的趋势图。

图3 信息获取速度主效应与交互效应图
从上图中可以分析出影响参数的敏感区域。例如,在当前分析模型下,RCS 指标在[0.1 1]区域内变化时,信息获取速度反应敏感,变化较大。但变化超出一定范围时,信息获取速度对RCS 指标反应“迟钝”,信息获取速度值呈现一种稳定趋势。这样可以获得信息获取速度与影响参数取值变化关系。用同样的方法可获得信息保障能力与其他各个影响参数之间的变化关系。
利用上面的探索性分析获得足够多的影响参数值,代入到效能评估模型中,即可得到相应的体系效能指标值关系。表2是不同影响参数取值下的信息保障能力值和综合效能值(基于Choquet积分的AHP模型)。
表2 某体系信息保障能力与效能值

在获得相应影响参数值和效能指标值之后,以这些数据作为输入,通过训练学习获得相应的代理模型。由于在训练获得代理模型的过程中,需要输入足够多的数据样本方能训练出精度较高的代理模型。因此,在进行代理模型训练学习之前首先需要对初始数据样本进行扩充。这里采用拉丁超立方体采样和随机采样进行样本扩容后,再进行训练。为了验证模型的可用性,采用基于拉丁超立方体采样的GMDH代理模型(L-GMDH)、基于拉丁超立方体采样的BP神经网络代理模型(L-BP)、基于拉丁超立方体采样的支持向量机SVR代理模型(L-SVR)、随机采样的GMDH代理模型(R-GMDH)、随机采样的BP神经网络的代理模型(R-BP)、随机采样的SVR代理模型(R-SVR)进行对比试验。其中BP隐层神经元个数为20,激活函数设置为sigmoid函数。训练样本选取样本集的90%,测试样本为样本集的10%。样本集设定为300,分别运行相应的代理模型。其中各个代理模型MSE和MAE的结果见表3。
表3 代理模型的MSE和MAE

由于MSE和MAE的结果越小,模型精度就越高,因此由上表可以看出采用拉丁超立方体取样的模型都比随机取样的模型精度高。基于表1的数据,进行数据扩充后经过代理模型计算获得效能值与参考值的拟合结果如图4所示。

图4 代理模型计算结果与参考值拟合效果图
图4为三种代理模型测试样本值与真实样本值拟合效果图。从图中可以看出,L-GMDH代理模型拟合效果优于L-BP模型、L-SVR模型,拟合效果最好。
若一个输入影响参数的全局效应指数很小,表明该因素不仅自身的变动对输出变动影响小,而且该因素与其它因素之间的交互效应也很小。因此,可以对全局效应指数小的参数取固定值或者忽略,减少可变指标个数,从而简化模型。在本案例中,若一个影响参数的全局效应指数很小,则该因素将被忽略。对L-GMDH、L-BP和L-SVR三个代理模型生成的数据进行因果追溯指数分析过程中,抽样方法为低差异的Sobol序列,设置样本数为10000,其分析结果见表4。
表4 信息保障能力指标的一阶因果追溯指数

上表中的参考值是通过ADC方法计算的结果。基于L-GMDH模型计算的因果追溯系数整体与参考值非常接近,而基于L-BP模型与L-SVR模型计算的因果追溯系数不稳定,有些与参考值非常接近,如L-BP模型中敏感系数
,L-SVR模型中
与参考值非常接近,但有些偏离过大,如L-BP模型中
、
,L-SVR模型中
、
。
表5 信息保障能力指标全局因果追溯指数

表5为信息保障能力指标的全局因果追溯指数,表中可以看出,基于L-GMDH代理模型计算得到的全局因果追溯指数与参考值更接近,整体效果较好,而基于L-BP模型计算得到的全局因果追溯指数与真实值差别较大,尤其是
和
与真实值差别明显。
从表4和表5获得的一阶因果追溯指数和全局因果追溯指数体现了信息保障能力主要影响因素对该能力的贡献程度,通过归一化可以获得影响因素对信息保障能力的一阶贡献率和全局贡献率,见表6。
表6 主要影响因素对信息保障能力的贡献率

从表6中看出,全局贡献率是在一阶贡献率的基础上,考虑了指标之间的交互效应,能够更好地体现了体系效能影响因素之间的交互效能,更加适合用于复杂体系贡献率的评价。
※ ※ ※
创新体系工程基础理论和方法
推动系统工程理论再发展