专利名称:一种基于字符与自注意力机制的层次文本分类方法
及中文文本分类方法
专利类型:发明专利
发明人:李芳芳,范日勇,施荣华申请号:CN201911012774.5申请日:20191023公开号:CN110825845A公开日:20200221
摘要:本发明公开了一种基于字符与自注意力机制的层次文本分类方法,属于自然语言处理领域。首先通过构建字符表,然后对原始数据集进行预处理,对预处理后数据集中的字符进行编码,将编码后的字符特征使用自注意力机制得到字符自注意力机制特征,合并字符自注意力机制特征的上下文信息得到词特征。接着对词特征使用自注意力机制得到词自注意力机制特征,合并词自注意力机制特征的上下文得到句子特征。最后,使用softmax分类器预测文本类别。本发明能在自注意力机制的基础上构造层次自注意力机制网络,捕获文本结构的复合特征,提高分类精确度。
申请人:中南大学
地址:410083 湖南省长沙市岳麓区麓山南路932号
国籍:CN
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容