融合有向图的文本敏感词过滤模型

刘莹,杨超宇

Journal of Suihua University(2022)

引用 0|浏览3
暂无评分
摘要
针对敏感词Trie树中敏感词节点重复存储、敏感词变形体识别效率不高的问题,提出了一种基于有向图和DFA的敏感词过滤算法DG-DGA.算法通过有向图存储敏感词库中的敏感词及敏感词间的关系,对待检测文本和敏感词通过汉明距离进行读音相似度计算,设置相似度参数来匹配敏感词,识别读音相近的变形体.实验表明:在全模式匹配下,DG-DGA算法的检测时间约为DFA算法的1/6,且待检测文本数量越大,检测效率越高.结论:在不同敏感词阈值下,DG-DGA算法能较好地识别出读音相似敏感词.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要