统计与规则相融合的领域术语抽取算法

Jisuanji Yingyong Yanjiu(2016)

引用 0|浏览3
暂无评分
摘要
针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性搭配规则与边界信息出现概率知识库相结合的词语度筛选策略以及基于词频—逆文档频率(TF-IDF)的领域度筛选策略。运用此算法不但能抽取出领域的常见用词,还可以挖掘出领域新词。实验结果显示,基于该方法构建的领域术语抽取系统的准确率为84.33%,能够有效支持中文领域术语的自动抽取。
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要