数据挖掘知识简介
引言
随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。本文从数据挖掘的产生背景,国内外发展趋势,主要挖掘方法及挖掘过程等方面作一介绍。
1.产生背景
1989年8月,在美国底特律召开的第11届国际人工智能联合会议(AAAI)的专题讨论会上首次出现数据库中的知识发现(Knowledge Discovery in Database,KDD)这一术语。KDD常常被称为数据挖掘(Data Mining)。 目前,关于KDD的研究工作已经被众多领域所关注,如过程控制、信息管理、商业、医疗、金融等领域。作为大规模数据库中先进的数据分析工具,KDD的研究已经成为数据库及人工智能领域研究的一个热点。
2.概念
所谓数据挖掘技术,是指从大量的、不完全的、有噪声的、模糊的数据中,提取隐含的、未知的、非平凡的及有潜在的应用价值的信息或模式,帮助决策者调整市场策略,减少风险,做出正确的判断和决策。数据挖掘是指从大型数据库中提取人们感兴趣的知识,这些知识是隐含的、事先不知的、潜在有用的信息。数据挖掘涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等各个领域,其目的在于从大量数据中发现隐含的、新的、令人感兴趣的关系和规律。数据源必须是真实的、
海量的、含噪声的。
3.国内外数据挖掘发展
3.1 国内数据挖掘研究现状
与国外相比,国内对数据挖掘的研究起步稍晚,但发展势头强劲。1993年,国家自然科学基金首次资助复旦大学对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究。
3.2 国外数据挖掘的现状
自1989年KDD术语出现以来,由美国人工智能协会主办的KDD国际研讨会已经召开了10次以上,规模由原来的专题讨论会发展到国际学术大会。而亚太地区也从1997开始举行PAKDD年会。IEEE的Knowledge and Data Engineering会刊率先在1993年出版了KDD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。数据挖掘已经成了国际学术研究的重要热点之一。
4.主要方法
4.1 概念/类别描述(Concept/Class Descri-
ption)
概念/类别描述是指对数据集做一个简洁的总体性描述并/或描述它与某一对照数据集的差别。
4.2 关联分析(Association Analysis)
关联是反映一个事件和其他事件之间的依赖或联系。Agrawal针对大型超市的销售数据库建立了关联规则模型和数据挖掘算法。所谓关联规则是指数据集中支持度和信任度分别满足给定阈值的规则。其中最著名的算法是R.Agrawal等人提出的Apriori。Apriori算法的核心思想是把发现关联规则的工作分为两步:第一步通过迭代检索出事务数据库中的所有频繁项集,即频繁项集的支持度不低于用户设定的阈值;第二步从频繁项集中构造出满足用户最低信任度的规则。拿关联分析用于医学领域为例:关联分析主要用于DNA序列间相似搜索与比较、识别同时出现的基因序列、在患者生理参数分析中的应用、疾病相关因素分析等。
4.3 分类与估值(Classification and Estimation)
分类指通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别。该分类模型可以表现为多种形式:分类规则(IF-THEN),决策树或者数学公式,乃至神经网络。
4.4 聚类分析(Clustering Analysis)
聚类分析是对输入集中的记录进行分类。聚类分析是一种探索性统计分析方法,是在没有经验的情况下对数据进行分类。从统计学的观点看,聚类分析是对数据建模,从而简化数据的一种方法,作为多元统计分析的主要分支之一,聚类分析已被研究了很多年,主
要集中在基于距离和基于相似度的聚类方法。从机器学习的观点看,簇相当于隐藏模式,聚类是搜索簇的无监督学习过程。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。数据挖掘领域主要研究面向大型数据库、数据仓库的高效和实用的聚类分析算法。
4.5 粗糙集(Rough Set)
粗糙集理论是波兰数学家Z.Pawlak于1982年提出的,是一种新的处理含糊性(Vagueness)和不确定性(Uncertainty)问题的数学工具。粗糙集理论的主要优势之一就在于它不需要关于数据的任何预备的或额外的信息。现在粗糙集已广泛应用于知识发现、机器学习、决策支持、模式识别、专家系统、归纳推理等领域。
4.6 决策树
决策树是一个类似树形结构的流程图,每个内部节点表明在一个属性上的测试,树枝描述测试结果,叶子节点指明分类或分类的分布情况。
4.7 进化计算
进化算法是从生物进化规律中得出的一种优化算法。遗传算法、进化策略和进化规划形成进化计算的三个主流版块。 遗传算法强调染色体的作用,进化策略强调个体级的行为变化,而进化规划则强调种群级上的行为变化。
4.8 模糊集
美国加利福尼亚大学的L.A.Zadeh教授于1965年提出了模糊集。模糊系统是建立在模糊数学上的一种推理方式,经常与神经网络联合应用。模糊聚类方法对对象的这种不分
明的类属性质进行了很好地表达和处理。
因篇幅问题不能全部显示,请点此查看更多更全内容