融合有向图的文本敏感词过滤模型

Journal of Suihua University（2022）

引用 0|浏览3

暂无评分

摘要

针对敏感词Trie树中敏感词节点重复存储、敏感词变形体识别效率不高的问题,提出了一种基于有向图和DFA的敏感词过滤算法DG-DGA.算法通过有向图存储敏感词库中的敏感词及敏感词间的关系,对待检测文本和敏感词通过汉明距离进行读音相似度计算,设置相似度参数来匹配敏感词,识别读音相近的变形体.实验表明:在全模式匹配下,DG-DGA算法的检测时间约为DFA算法的1/6,且待检测文本数量越大,检测效率越高.结论:在不同敏感词阈值下,DG-DGA算法能较好地识别出读音相似敏感词.

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要