发布网友 发布时间:2022-04-22 08:23
共1个回答
热心网友 时间:2022-06-18 13:33
刘明亮1 吴跃民1 杨明2
(1.湖南万源评估咨询有限公司,长沙,410011;2.武汉大学资源与环境科学学院,武汉,430079)
摘要:本文介绍和分析了两种非经典数学方法云理论和粗糙集理论,通过对这两个方法进行比较和结合,建立了以云理论和粗糙集理论相结合为基础的土地适宜性评价模型,并在此基础上进行了实例的研究和应用。
关键词:粗糙集理论;云理论;数据挖掘;土地适宜性评价
土地适宜性评价是针对某种特定土地利用类型的适宜性及适宜程度的评价。它是土地合理利用的重要内容,通过其对地区全部土地资源的研究,为土地利用总体规划工作中的人地平衡、用地布局与土地结构调整、土地开发利用等工作提供了科学依据。因此,对土地适宜性进行正确的评价,对适宜级别做出合理划分是进行规划决策的首要任务之一,而评价方法作为获取正确评价结果的途径就显得尤为重要。
传统的评价方法,如极限条件法、回归分析法、经验指数和法、层次分析法等,由于其评价方法过于简单,在一定程度上不能客观全面地反应实际情况。随着智能化技术的不断发展与完善,评价方法也由传统的简单的数值方法向智能化发展。由于土地适宜程度本身的不确定性,用处理大量的不确定性数据的挖掘技术显得更有优势。
1 粗糙集理论与云理论的特点
粗糙集理论是一种刻画不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。它能够完全从已有的数据中有效地发现关联规则,它可支持知识获取的多个步骤,如数据预处理、数据约简、规则生成、数据依赖关系获取等。云理论是在传统模糊集理论和概率统计的基础上提出的定性定量转换模型,用期望值Ex、熵En和超熵He表征定性概念,是以研究定性定量间的不确定性转换为基础的系统。作为处理不确定性问题的一种新理论,它可协助数据的离散化,规则的推理,使得该方法更趋近于人类的思维领域,为更好地向人工智能发展打下基础。
云理论和粗糙集理论在处理不确定性和不精确性问题方面都推广了经典集合论,它们都可以用来描述知识的不精确性和不完全性,但它们的出发点和侧重点不同,云理论结合了模糊性和随机性,而粗糙集通过上近似集、下近似集来刻画不可分辨性。粗糙集不需要任何预备的额外的有关数据信息,在推导关联规则方面,有其特有的优势;而云理论处理不确定信息的方法需要一些数据的附加信息或先验知识,但提供了定性定量转换的方法。虽然云理论和粗糙集理论特点不同,但它们之间有着密切的联系,在研究不确定性数据方面,有很强的互补性。把云理论方法引入到粗糙集方法中,对粗糙集的结构化的模型进行改进,不仅可提高发现算法的效率,还可提高系统模型的鲁棒性。土地适宜性是一个定性的概念,利用粗糙集理论和云理论相结合建立土地适宜性评价模型,可以互相补充,取长补短,为土地适宜性评定的客观性提供可能性。
2 基于云理论和粗糙集评价模型的建立
云理论与粗糙集方法相结合是将基于云理论的定量到定性的转换方法作为粗糙集方法的预处理手段,把定量数据转换为定性数据,或把定性数据转换为不同概念层次的新的定性数据,然后应用粗糙集方法发现分类决策知识,最后运用云理论的不确定性推理方法应用这些知识,即根据新的定量或定性条件数据推理出定量或者定性结果,从而表达和传递知识和推理的不确定性。就具体模型建立而言,首先根据原始数据制成初始决策表,对每个条件属性,查看它是否为离散属性,若是,则进行离散化处理,直至整个决策表全部转化为离散数据为止,据此制成最终决策表。在此决策表的基础上,利用粗糙集方法发现关联规则并计算属性重要性,得到关联规则,最后用基于云理论的推理方法得出定性的推理结果。整个模型如图1所示。
图1 评价模型图
其中,基于云理论规则推理的详细过程,如图2 所示。
2.1 决策表的建立
收集影响土地适宜性的数据,如坡度、质地、有机质含量,厚度等等,进行原始数据的采样和整理,并根据土地适宜性评价的目的(如宜林宜牧等)做成信息决策表。
2.2 数据预处理
在很多情况下,所得到待处理的信息表并不是一个完备的信息表,表中的某些属性值是被遗漏的。对于这种情况,可通过将空缺属性值赋予特殊值来处理,以区别于其他属性值。
图2 云理论推理
2.3 数据离散化
用云模型模拟人类的思维划分属性空间。每一个属性看作一个语言变量(或多个语言变量的组合)。对于每一个语言变量,定义几个语言值,相邻的语言值间允许有重叠,表达语言值的云可以由用户交互地给定。设对于一个数字型属性给定云A1 (Ex1,En1,He1),A2 (Ex2,En2,He2),……,An (Exn,Enn,Hen),作为语言项,将任一属性值 x输入到云发生器 CG1,CG2,……,CGn,得到输出值 μ1,μ2,……,μn,即属性值 μ 与A1,A2,……,An的隶属度,检索出最大隶属度μi,则x分配给Ai。如果两个隶属度μi和μj,均等于最大值,则 x 随机地分配给 Ai或 Aj。
2.4 决策表属性约简
基于粗糙集理论的知识获取,通过采用决策表可辨识矩阵和可辨识函数的属性约简算法对原始决策表约简,包括属性约简和属性值约简。
令S=<U,R,V,f>是一个决策表系统,R=P∪ D 是属性集合,子集 P={ai |i=1,…,m} 和 D={d} 分别为条件属性集和决策属性集,U={x1,x2,…,xn} 是论域,ai (xj)是样本 xj在属性ai 上的取值。CD (i,j)表示可辨识矩阵中第 i 行 j 列的元素,则可辨识矩阵CD 定义为: {ak | ak∈ P ∧ak (xi)≠ ak (xj)},d (xi)≠ d (xj);
土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集
其中 i,j=1,…,n。
根据可辨识矩阵的定义可知,当两个样本(实例)的决策属性取值相同时,它们所对应的可辨识矩阵取值为0;当两个样本的决策属性不同而且可以通过某些条件属性的取值不同加以区分时,它们所对应的可辨识矩阵元素的取值为这两个样本属性值不同的条件属性集合,即可以区分这两个样本的条件属性集合;当两个样本发生冲突时,即所有的条件属性取值相同而决策属性的取值不同时,则它们所对应的可辨识矩阵中的元素取值为空。
2.5 计算属性权重
对于属性集C导处的分类的属性子集B′⊆B的重要性,可用两者依赖程度的差来度量,即:
rB (C)-rB-B′(C)
这表示当从集合 B 中去掉某些属性子集B′对象分类时,分类 U/C 的正域受到怎样的影响。
其中,rB (C)=card (posp (Q))/card (U)
是知识依赖性的度量,其中 card 表示集合的基数:
土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集
称为Q的P正域,对于 U/P 的分类,U/Q 的正域是论域中所有通过分类 U/P 表达的知识能够确定地化入 U/Q 类的对象集合。
2.6 基于值约简的决策规则最小化的提取
基于值约简的决策规则的提取是建立在决策表值约简的基础上进行的。假设决策表有三个条件属性 a、b、c,一个决策属性 d。通过对[x]a、[x]b、[x]c、[x]d,进行属性值约简,在规则最小化的原则下,计算得出最小决策规则。
2.7 基于云理论的规则推理
基于云理论的不确定性推理按规则的条数分为单规则和多规则推理,每一条规则又可以根据规则前件的条数分为单条件规则和多条件规则。土地适宜性评价只要求得到定性的推理结果,所以本模型通过计算属性重要性来解决。首先激活一个实例的几条规则,得到各个规则的隶属度的云滴,拟合成虚拟云,该虚拟云的期望值即为结果,最后根据最大隶属度的选择选取定性结果。
根据以上理论设计的土地适用性评价系统如图3 所示。菜单是关于常用理论的基本方法,右侧的一系列步骤是关于组建数学模型的实现方法。中间的坐标界面用来显示图形结果。
图3 评价系统界面
3 应用实例
琼海市地处海南省东部。东临南海,北靠文昌,西接屯昌,南与万宁县交界。琼海市有着优越的农业自然条件、丰富的旅游资源,但全市存在工业底子薄、矿产资源贫乏、能源短缺、科技水平较低以及建设资金不足等制约因素。土地适宜性评价的主要任务是在收集土壤、地形、水利、气候等资料的基础上,对评价范围内的所有土地进行适宜性评价,找出不适宜现状用途的土地,并给出指定用途的适宜性土地的等级。
3.1 收集资料、整理数据
收集所有有关琼海市土地适宜性评价的数据,5个条件属性和1个决策属性,根据原有的单元划分9311个实例。表1是其中一实例的决策表的一部分。
表1 决策表示例
其中,Yjz 表示土壤有机质含量,Hd 表示土壤厚度,Zd 表示土壤质地条件属性,Sl表示水利条件属性,S_c 表示宜水产养殖地类决策属性。
3.2 数据预处理
因为本实例中所得到的初始数据并没有缺失,无需对初始决策表进行预处理,故可以省略这一步,所以得到的最终决策表同表1。
3.3 数据离散化
对决策表中的每个属性,依次进行以下步骤,分别得到离散结果。
3.3.1 计算属性的数据分布函数
对属性 i 定义域中的每一个可能取值,计算得到属性 i 的数据分布函数gi (x);图4是属性厚度(Hd)的数据分布函数的图。
图4 属性数据分布图
3.3.2 计算单个云模型的数据分布函数
寻找数据分布函数 gi (x)的波峰所在的位置,将其属性定义为云的重心位置,然后计算用于拟合 gi (x)的云模型,云模型函数 fi (x)计算如图5 所示。
图5 云模型分布
该图是寻找第二波峰位置时,所拟合的基于云的数据分布函数(红色实线)。云模型参数为:
土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集
3.4 离散化
通过上一步得到的归纳并了解概念云后,对于每个需要离散化的属性值,一一计算出对于每个概念云的隶属度,选取其最大值为离散化的结果,表2 是离散化结果的一部分。
表2 属性离散结果
3.5 属性约简
求出布尔函数表达式,用布尔函数极小化算法计算约简结果。将布尔函数转化为二进制区分矩阵,对二进制区分矩阵实行简化算法,得到决策表的约简结果,如表3所示。
表3 属性化简结果
3.6 计算属性权重
根据条件属性对决策属性的分类产生的影响,计算每个条件属性对决策结果产生的重要性及系数,如表4所示。(这个度量是根据论域中的样例来得到的,不依赖于人的先验知识。)
表4 属性权重结果
3.7 决策推理
根据云理论多条件多规则推理方法,对原有数据参照最小规则进行推理,得到最终的等级划分结果,如图6 所示。
图6 等级划分结果
4 结论
利用上述模型,首先应该尽可能多地收集对土地适宜性问题有影响的因素,运用云理论进行连续数据的离散化之后,可以根据属性重要性确定的方法来筛选评价因素,在此基础之上,运用粗糙集方法获取评价规则。另外应注意的是土地多宜性问题,在土地适宜性评价中,对于每一种土地用途,都要分别确定它的等级,这区别于粗糙集一般的信息处理过程中,把几个不同的决策属性归并为一个决策属性集的综合决策。
应用结果表明,云模型汲取了自然语言的优点,突破了已有方法的局限,能够把模糊性和随机性有机地综合在一起,在空间数据挖掘中构成定性和定量相互间的映射,发现的知识具有可靠性。粗糙集理论对模糊和不完全知识的处理比较出色,但其对原始模糊数据的处理能力比较弱,而基于云模型的定性定量转换方法作为粗糙集的预处理是比较合适的。二者相结合的方法应用于土地适宜性评价可以集两种理论之所长,更具优势地解决对其定性评价的实际问题。
参考文献
张文修,吴伟志等.粗糙集理论与方法[M].北京:科学出版社,2001
曾黄麟.粗糙集理论及其应用[M].重庆:重庆大学出版社,1998
张丽,马良.基于粗糙集属性约简的模糊模式识别[J].上海理工大学学报,2003,25 (1):50~53
杨昭辉,李德毅.二维云模型及其在预测中的运用[J].计算机学报,1998,21 (11):961~969
邸凯昌著.空间数据发掘与知识发现[M].武汉:武汉大学出版社,2001.12