专利名称:基于中医药领域专业词向量的中草药植物图片爬取
方法
专利类型:发明专利
发明人:魏宝刚,张引,庄越挺,谭亮申请号:CN201610146357.X申请日:20160315公开号:CN105824904A公开日:20160803
摘要:本发明公开了一种基于中医药领域专业词向量的中草药植物图片爬取方法。首先需要选择收集中医药文本数据,本发明采用医学书籍的文本信息以及从百科网站上爬取的中医药相关的词条信息;其次,利用这些文本数据训练Word2Vec模型得到中医药领域专业词向量;然后,利用谷歌、百度等通用搜索引擎提供的基于文本的图像检索功能获取候选图片集和它们所在源网页的文本信息,并利用Doc2Vec模型计算各源网页的特征向量;最后,根据源网页的特征向量与对应中草药词向量的相似度对候选图片集进行重排,选取排在前面的若干图片,然后使用感知哈希算法对图片集进行去重处理,得到最终的图片集。
申请人:浙江大学
地址:310027 浙江省杭州市西湖区浙大路38号
国籍:CN
代理机构:杭州求是专利事务所有限公司
代理人:张法高
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容