
科学计算和数学模型的研究在环境科学研究和工作实践中占有重要地位,它是环境科学与其所依托的传统学科之间进一步交叉互动发展的需要,是量化认识、准确调控复杂环境系统的需要,也是环境科学研究的重要工具、环境规划、环境评价的核心技术之一。今天我们主要介绍Entropy熵值法、AHP层次分析法和PCA主成分分析法三种方法。
主要流程
Step1,确立指标体系
我们用手游认知客户挖掘模型实例来解说熵值法计算指标权重的全过程。下图是手游认知客户挖掘模型的二级指标评价体系,其中各个维度指标对应的权重系数均是通过熵值法计算出来的。
下面具体看下模型中 “手游认知能力”部分指标权重的计算过程。

方法:即剔除各指标中极大或者极小的值,一般用比较合理的上下限值替换这些极值。目的是减少极值数据对该指标的熵的影响;
原则:剔除占样本总数不到1-2%但指标值贡献率超过20-30%以上的极值样本

方法:指标归一化过程也称之为指标的无量纲化,即将指标实际值转化为不受量纲影响的指标平价值。方法比较多,具体见附录《无纲量化方法一览》;
原则:比较常用的是临界值法和Z-score法(更合理,保持了数据的连续性,减少数据信息丢失),最终将所有指标转化为正区间里面,二者具体处理如下:


方法:计算综合得分就是指标合成的过程,一般可以采用加法原理和乘法原理;
原则:最常用的是加法合成法,其具体处理如下:
利用以上3个指标的权重和归一化指标值,计算上级指标的分数:手游认知能力得分= 0.336*手游历史付费金额+0.212*手游访问次数 +0.452*手游访问天数。
当然,模型其他部分的底层指标权重和一级指标权重均可以按以上步骤计算得到,并一层层由下往上进行加权,最终得到模型的综合得分。
层次划分
最高层:决策的目的、要解决的问题
最低层:决策时的备选方案
中间层:考虑的因素、决策的准则
对于相邻的两层,称高层为目标层,低层为因素层
主要流程
建立层次结构模型
例如,假期旅游,是去风光秀丽的苏州,还是去凉爽宜人的北戴河,或者是去山水甲天下的桂林?通常会依据景色、费用、食宿条件、旅途等因素选择去哪个地方。 如何在3个目的地中按照景色、费用、居住条件等因素选择.

在建立递阶层次结构以后,上下层次之间元素的隶属关系就被确定了。假定上一层次的元素Ck作为准则,对下一层次的元素 A1, …, An 有支配关系,我们的目的是在准则 Ck 之下按它们相对重要性赋予 A1, …, An 相应的权重。比较同一层次中每个因素关于上一层次的同一个因素的相对重要性。
层次单排序及其一致性检验
一般地,我们并不要求判断具有这种传递性和一致性,这是由客观事物的复杂性与人的认识的多样性所决定的。但在构造两两判断矩阵时,要求判断大体上的一致是应该的。出现甲比乙极端重要,乙比丙极端重要,而丙又比甲极端重要的判断,一般是违反常识的。一个混乱的经不起推敲的判断矩阵有可能导致决策的失误,而且当判断矩阵过于偏离一致性时,用上述各种方法计算的排序权重作为决策依据,其可靠程度也值得怀疑。因而必须对判断矩阵的一致性进行检验。
定义一致性指标:

定义一致性比率 :

层次总排序及其一致性检验
层次总排序的一致性比率:

在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。
主要流程
对原始数据进行标准化
计算相关系数矩阵
计算特征值与特征向量
计算主成分载荷
各主成分的得分
几何解释
假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个变量,记为X1,X2,…,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,…,Fk(k≤p),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。
