Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/clojure/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python:如何根据文本的实体对文本进行预测和分组?_Python_Nlp - Fatal编程技术网

Python:如何根据文本的实体对文本进行预测和分组?

Python:如何根据文本的实体对文本进行预测和分组?,python,nlp,Python,Nlp,给定一些文本记录,如以下,如何将文本组织到其实体定义中?例如,自动知道哪些是地址、电子邮件和电话号码,哪些是姓名,并对它们进行分组,即使这些文本的出现并不一致,也不总是保证它们会出现。这是一个很难解决的问题,因为没有标记元素来分隔它们,它只是由换行符和破折号分隔结果的原始文本。我想知道我如何着手解决这个问题,需要什么技术来实现这一点 James W. 342 Ave. Seattle, WA 483948 483-428-1311 james@w.edu ------------- Cec

给定一些文本记录,如以下,如何将文本组织到其实体定义中?例如,自动知道哪些是地址、电子邮件和电话号码,哪些是姓名,并对它们进行分组,即使这些文本的出现并不一致,也不总是保证它们会出现。这是一个很难解决的问题,因为没有标记元素来分隔它们,它只是由换行符和破折号分隔结果的原始文本。我想知道我如何着手解决这个问题,需要什么技术来实现这一点

James W.
342 Ave.
Seattle, WA
483948
483-428-1311
james@w.edu

-------------


Cecil F.
100 Ave.
San Fransico, CA
cecil@mail.com

--------------


Steve Frein
(+12) 142-2221
158 Saint St.,
Berlin, Germany

你前面还有很长的路要走。首先,检查数据集,寻找每行时间的可识别模式,并编写一个唯一的正则表达式来匹配它们。在正则表达式集合中运行文件,并发出任何不匹配的行。随着时间的推移,您最终会确定异常情况。

可能可以研究每个实体的正则表达式。@shaktimaan我也这么认为,但对于字符串完全依赖于实体定义的情况,这是行不通的。例如,产品类别,它可以是任何东西,但只有人类才能注意到这一点。我避开正则表达式,因为它不适用于简单模式不够的情况。例如,一个人的职业可以是任何东西,除非你提前知道每一个可能的排列,否则仅仅使用正则表达式是非常困难的。如果没有可预测的模式,项目就无法进行。