基于改进SVM的中文专利文本分类比较研究

Journal of Wuhan University of Technology(Information & Management Engineering)(2023)

引用 0|浏览3
暂无评分
摘要
为深入挖掘中文专利文本特征,使专利类别划分更清晰、技术联系更紧密.首先,从专利信息平台爬取智能家居领域专利,构建智能家居专利信息语料库并进行分词与去停用词处理;其次,通过TF-IDF-LDA和均值Word2Vec两种自然语言处理算法,分别对语料库中的文本信息向量化并输出结果,绘制词云图展示筛选出的具有文档代表性的词语;最后,引入SVM进行文本分类并将两组平行实验的分类结果进行对比分析选出最优模型.通过样本上采样解决数据分布不均问题,进一步提升专利分类的准确率.结果表明:均值Word2Vec准确率为97.15%,而LDA准确率为86.91%,经过采样优化后的均值Word2Vec模型准确率为98.51%.为中文专利文本再分类提供新思路,有助于深入挖掘关键共现技术,促进国家产学研一体化发展.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要