Technical Report: Adding Missing Words to Regular Expressions

user-5d4bc4a8530c70a9b361c870(2018)

引用 2|浏览3
暂无评分
摘要
Regular expressions (regexes) are patterns that are used in many applications to extract words or tokens from text. However, even hand-crafted regexes may fail to match all the intended words. In this paper, we propose a novel way to generalize a given regex so that it matches also a set of missing (previously non-matched) words. Our method finds an approximate match between the missing words and the regex, and adds disjunctions for the unmatched parts appropriately. We show that this method can not just improve the precision and recall of the regex, but also that it generates much shorter regexes than baselines and competitors on various datasets. This report complements our paper at the PAKDD 2018 conference. [18] Rapport technique: Ajout de mots manquants aux expressions regulieres Resume Les expressions regulieres (regex) sont des modeles utilises dans de nombreuses applications pour extraire des mots ou des parties du texte. Cependant, meme les regex faites a la main ne correspondent pas toujours a l'ensemble des mots prevus. Dans cet article, nous proposons une nouvelle facon de generaliser une expression reguliere donnee afin qu'elle corresponde egalement a un ensemble de mots manquants (precedemment non reconnus). Notre methode trouve une correspondance approximative entre les mots manquants et l'expression reguliere, et ajoute des disjonctions pour les parties non recon-nues de facon appropriee. Nous montrons que cette methode ameliore la precision et le rappel de la regex, et aussi qu'elle genere des expressions re-gulieres beaucoup plus courtes que l'approche naive et que les algorithmes concurrents sur differents jeux de donnees. Ce rapport complete notre article soumis a la conference PAKDD 2018. [18]
更多
查看译文
关键词
Regular expression,Humanities,Computer science
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要