您的当前位置:首页正文

基于TAN结构的贝叶斯文本分类器

2021-08-04 来源:年旅网


技 术 应 用 基于TAN结构的贝叶斯

文本分类器研究

王景中 易路杰

北方工业大学信息工程学院 北京 100144

摘要:朴素贝叶斯分类器是一种简单且有效实现的文本自动类方法,但其独立性假设在实际中是不存在的。在TAN结构贝叶斯分类算法中,考虑了两两属性间的关联性,对属性间的独立性假设有了一定程度的降低。

关键词:文本分类;贝叶斯;TAN

0 引言

朴素贝叶斯分类器是贝叶斯分类中一种最常见且原理简单,实际应用很成功的方法。朴素贝叶斯分类器中的“朴素”主要是指假设各属性间相互独立。在文本分类中,假设不同的特征项在确定的类别下的条件概率分布相互独立,这样在计算特征项之间的联合分布概率时可以大大提高分类器的速度。目前,很多文本分类系统都采用贝叶斯分类算法,在邮件分类、电子会议、信息过滤等方面都有了广泛的应用。

Ci类的后验概率,再通过比较,得出后验概率最大的即为给

定文本最可能属于的类别。因此,贝叶斯类别判别式为:

CNB=argmaxP(Ci/w1,w2,…wn) (1)

本文采用布尔表示法描述文本,每个文本表示为特征矢

…wV),V为特征词表,V为特征词表总词数,量(w1,w2,

V=(B1,B2,…BV)。特征矢量中的wi={0,1},1表示特

征词表中的第i个词出现,0表示没有出现。

根据贝叶斯公式:

P(Ci/w1,w2,…wn)=

1 朴素贝叶斯分类器 1.1 贝叶斯公式介绍

贝叶斯定理为:设S为试验E的样本空间,A为E的事件,B1,B2,…Bn为S的一个划分,且有P(A)>0,P(Bi)>0 (i=1,2,…n),则有:

P(A/Bi)P(Bi)

,i=1,2,…n。 P(Bi/A)=n∑P(A/Bj)P(Bj)

j=1

P(w1,w2,…wn/Ci)P(Ci)

(2)

P(w1,w2,…wn)

式中P(Ci)为样本集中属于Ci类的概率,P(w1,w2,…wn/Ci)为Ci类中给定文本特征词的概率。

要求maxP(Ci/w1,w2,…wn),(2)式中分母P(w1,w2,…wn)在给定的所有类别中为固定值,即为常量。因此,只需求:

CNB=argmaxP(w1,w2,…wn/Ci)P(Ci) (3)

式中P(Ci)的值为每个类别在样本集中的频率,即为样本集中属于Ci类的文本数与样本集中的总的文本数的比率。P(w1,w2,…wn/Ci)的值计算比较困难,理论上只有建立一个

1.2 贝叶斯文本分类

贝叶斯文本分类模型是一种基于统计方法的分类模型,是现有文本分类算法中最有效的方法之一。其基本原理是:通过样本数据的先验概率信息计算确定事件的后验概率。在文本分类中的应用为:通过计算给定文本的特征值在样本库得出给定文本的特征值属于 中某一确定类Ci中的先验概率,

足够大的样本集才能准确得到。如何得出P(w1,w2,…wn/Ci)的值也是贝叶斯算法的关键,直接影响分类的性能。目前只能通过估算得出。

由于贝叶斯分类模型的假设,文本特征属性之间独立同分布,因此各属性联合概率等于各属性概率的乘积,即:

基金项目:国家自然科学基金(the Nation Natural Science Foundation of China under Grant No.60972077);北京市自然科学基金B类(the Natural Science Foundation of Beijing under Grant No.KZ2010009008)。 作者简介:王景中(1962-),教授,研究方向:计算机通信网络与信息安全技术。易路杰(1985-),硕士生,研究方向:信息安全。 2012.1

53

技 术 应 用

P(w1,w2,…wn/Ci)=∏P(wj/Ci) (4)

式中B(dk/ws)={0,1},1表示ws出现在文本dk中,0j

式中P(wj/Ci)为Ci类文本中wj的词频与Ci类文本的总词频的比率。在本文中P(wj/Ci)的值估算采用下式:

D

1+P(w=

∑Nw=1jB(Ci/dk)kj/Ci)VD (5)

V+∑s=1∑N

wB(Ci/dk)

k=1

s

式中Nwj表示特征词的词频,D表示类文本数,B(Ci/dk)={0,1},1表示文本dk属于Ci类,0表示不属于Ci类。

1.3 TAN结构的贝叶斯文本分类

由Friedman等人提出的TAN(Tree Augmented Naive)树状结构模型,使朴素贝叶斯模型独立性假设更符合实际。在应用中的主要思路是采用贝叶斯网络中的表示依赖关系的方法,在其中的各叶节点之间增加一些必要的边,用来表示各属性变量之间的关系,从而放宽了朴素贝叶斯中的独立性假设。

朴素贝叶斯理论的独立性假设即要求每个属性有且仅有一个父节点,为类节点。而TAN模型中,用节点表示属性,通过有向边表示属性间的关系,把类别属性作为根节点,其余属性作为它的子节点。在具体实现时这些增加的边需满足两个条件,首先,类别变量没有父节点。其次,每个属性变量有一个类变量为父节点和最多另一个属性变量作为其父节点,即πwi≤2。

在给定待分类文本中,贝叶斯分类器选择后验概率最大的CNB为该文本所属类别,据(3)式、(4)式得:

CNB=argmaxP(Ci)∏P(wj/Ci)=

j

argmaxP(Ci)∏P(wj/πwj) (6)

j

式中πwj代表wj的父节点集。增加有向边后πwj具有两种形式:πwj没有非类父节点和πwj有一个非类父节点。因此要计算(6)式就需要估算出三个值:P(Ci)、P(wj/Ci)、P(wj/Ci,ws)。前两个值在上文中已经说明,而P(wj/Ci,ws)

为在Ci类中,ws出现时wj的概率。因此这里就考虑了两个词之间的关系。P(wj/Ci,ws)的值等于Ci类文本中出现ws的文本中wj的总词频与Ci类中出现ws的文档的总词频的比率。即:

D

1+i/dk)B(dk/ws)P(wk=1

j/Ci,w∑NwjB(Cs)=

VD

(7)

V+∑Nws=1∑jB(Ci/dk)B(dk/ws)

k=1

54 2012.1

表示ws不出现在文本dk中。

2 实验结果

目前,人们最常用的评价分类性能的指标是查准率(精确率)和查全率(召回率)。查准率是指分类器正确判别为该类的测试样本数与分类器判别为该类的测试样本总数的比率。查全率是指分类器正确判别为该类的测试样本数与该类的总测试样本数的比率。以上两个指标体现了文本分类质量的两

个方面,需要综合考虑,因此有

F1测试作为综合评估指标。

F1测试值=准确率×召回率×2

准确率+召回率

实验选取中文自然语言处理开发平台提供的语料库的文章,选择六类文本进行测试,分别是计算机、农业、经济、艺术、环境、政治,共1800篇,每类300篇。其中从每类中选取200篇为训练样本文档,余下100篇为测试文档。测试结果见表1。

表1 实验结果

类别 查准率 查全率 F1测试值

计算机 0.92 0.77 0.84 农业 0.70 0.82 0.75 经济 0.69 0.82 0.75 艺术 0.85 0.78 0.81 环境 0.85 0.75 0.80 政治

0.78 0.81 0.79 从表1可看出,在所取测试集中,平均查准率达到0.80,平均查全率达到0.79,平均F1测试值达到0.79。基本达到了文本分类的效果。

3 结束语

上述朴素贝叶斯分类算法基本实现了文本分类,但是还存在着一些问题。首先TAN结构虽然考虑了两两属性间的关联,但文本中属性之间可能存在的其他更多的关联并没有考虑到,因此适用范围还是有一定的局限性。还有在计算特征词属于某一确定的类的概率时,由于训练集的选择不同,或者训练集不足够大,这会有某些不常见的特征词在训练库中不出现,而朴素贝叶斯判别式是一个乘积的值,这样就会对结果影响很大。这些问题在以后的工作中还需要不断的改进。

参考文献

[1]陈叶旺,余金山.一种改进的朴素贝叶斯文本分类方法[J].华侨大学学报(自然科学版).2011.

[2]陈欣,张菁,李晓光.一种面向中文敏感网页识别的文本分类方法[J].测控技术.2011.

[下转43页]

技 术 应 用 SSL,既保证了跨局域网的数据通讯安全,又提供开放的接

口支持企业应用第三方加密软件。SCK使用标准C语言开发,便于跨平台移植,目前可以支持微软的主流操作系统、Linux和开放式UNIX平台。

其次,采用轻量级信息发现协议(LIDP),使系统具有很好的扩展能力,可以在以后的发展中兼容MIB等标准的定义;使用XML格式语言定义,支持跨平台以及设备无关性;实现了信息项定义与信息项实现方法的无关性,与平台设备有关的部分;封装到实现信息项的模块内部来定义(如图3)。

图3 LIDP与MOM

参考文献

[1]吕锓.局域网实时监控系统的设计与实现.国防科技大学学

报.2007.

[2]秦建.Linux下的Tcp/Ip代码解析.北京航空航天大学出版社. 2004.

[3]张立.轻量级tcp/ip协议中安全技术研究.国防科技大学学

4 结论

通过基于分布式计算的IT管理系统,可以有效解决企业的内部网络安全问题,降低日常维护量、并且实现对IT资产的有效管理。

报.2008.

Research of IT Source Management System based on distributed computing

Yang Kaiqi, Qin Xike

Wuxi Keysense Tech Co,Ltd,Jiangsu,214028,China

Abstract:The clients’ amount of enterprise network grows faster than before, it become more and more difficult to manage thounds of client. This thesis analysis the IT management system based on distributed computing, which implement the security management of IP address, IT asset auto-management, VLAN management, software distribution and remote desktop maintenance, online network monitor. Keywords:IT Source Management; distributed computing

[上接54页]

[3]张玉芳,陈剑敏,熊忠阳.一种改进的贝叶斯文本分类方法[J].华[7]安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报.2007.

[8]刘沛骞,冯晶晶.一种改进的朴素贝叶斯文本分类算法[J].微计

侨大学学报(自然科学版).2007.

[4]史瑞芳.贝叶斯文本分类器的研究与改进[J].计算机工程与应

用.2009.

[5]王潇,胡鑫,三种分类算法的比较[J].石河子大学学报(自然科

算机信息.2010.

[9]梁宏胜,徐建民,成岳鹏.一种改进的朴素贝叶斯文本分类方法[J].河北大学学报(自然科学版).2007.

[10]余芳,姜云飞.一种基于朴素贝叶斯分类的特征选择方法[J].2004.

学版).2005.

[6]石洪波,王志海,黄厚宽.贝叶斯文本分类方法研究[J].山西大学

学报[J].2002.

Research of Bayesian Text Classifier Based On Tan Structure Wang Jingzhong, Yi Lujie

College of Information Engineering, North China University of Technology, Beijing 100144, China

Abstract:Naïve Bayesian is a simple and effective method that can be easily implemented text automatic categorization, but its assumption of independence does not exist in practice. In TAN structure Bayesian classification algorithm, the correlation between each two attributes was considered, the assumption of independence between attributes was reduced in a certain degree. Keywords:text classification;Bayesian;TAN

2012.1

43

因篇幅问题不能全部显示,请点此查看更多更全内容