如何在NLP框架中执行段落边界检测?

如何在NLP框架中执行段落边界检测?,nlp,text-processing,stanford-nlp,opennlp,apache-stanbol,Nlp,Text Processing,Stanford Nlp,Opennlp,Apache Stanbol,我正在努力从英文报纸上出现的各种广告中提取人名 然而,我注意到,在提取广告中出现的名称之前,我需要识别广告的边界,因为我只需要提取第一个出现的名称。我成功地提取了名字。但我在确定段落边界时遇到了麻烦 有没有办法确定段落边界 这是一个难题,我们的一个项目也面临同样的问题。有一些理论论文帮助详细定义了问题的范围和潜在的解决方案。我会把它们包括在下面 我们仍在研发过程中,因此目前还没有太多答案,但我们愿意随着时间的推移分享我们的成果和发现 这里有一份这样的文件: 以下是他们使用的ISCIBoost代

我正在努力从英文报纸上出现的各种广告中提取人名

然而,我注意到,在提取广告中出现的名称之前,我需要识别广告的边界,因为我只需要提取第一个出现的名称。我成功地提取了名字。但我在确定段落边界时遇到了麻烦


有没有办法确定段落边界

这是一个难题,我们的一个项目也面临同样的问题。有一些理论论文帮助详细定义了问题的范围和潜在的解决方案。我会把它们包括在下面

我们仍在研发过程中,因此目前还没有太多答案,但我们愿意随着时间的推移分享我们的成果和发现

这里有一份这样的文件:

以下是他们使用的ISCIBoost代码的github链接:


你的问题有点含糊。你在寻找结构线索吗?语言线索?请从你的语料库中摘录一段。这里有一个小样本:讣告。威廉·H·布朗内尔将军。Gonoral William H.BrowncU dlod准将在过去几天患病后的第三天下午,在布鲁克林Ponn-st.258号他的Born。他的死因是肺炎。何鸿燊去世后,在tho-tlmo的tho Stato军械部担任Ordnac的助理Chiof,军衔为上校。乔治·蒂克诺·柯蒂斯(GEORGE TICKNOR CURTIS,JR.)乔治·特克诺·柯蒂斯(GEORGE Tlcknor CURTIS,JR.)昨天在费城去世,他是著名作家、正义故事的孙子。一年多以来,他一直身体不好。你的语料库似乎很吵。我猜这是OCR系统的输出。。。一个正则表达式来匹配大写字符的子字符串怎么样?也许你也可以使用专有名词词典来过滤掉不需要的大小写……好吧,不同功能的组合可能是解决方案,例如,字符大小写、与词典中的专有名词匹配、候选段落长度等等。您可以基于这些功能构建规则。最终,您将使用一种机器学习方法,使用更多功能和一些训练数据(手动分割段落)。如果您不熟悉ML,请尝试一下Weka(它很容易使用)。