Machine learning 如何使用自然语言处理或其他技术从html中提取实体

Machine learning 如何使用自然语言处理或其他技术从html中提取实体,machine-learning,nlp,named-entity-extraction,Machine Learning,Nlp,Named Entity Extraction,我试图从包含时间、地点和名称的网页中解析实体。我读了一些关于自然语言处理和实体提取的书,但我不确定我是否走错了路,所以我在这里提问 我还没有开始实现任何东西,所以如果某些开源库只适用于特定的语言,那就可以了 很多时候,数据不会出现在句子中,而是出现在列表等html结构中(例如,2013-02-01-活动名称-竞技场名称) 网页的结构将大不相同(有些可能使用列表,有些可能将它们放在表格中,等等) 我可以研究哪些主题来了解如何实现这一目标? 在进行实体提取时,有没有考虑html结构的开源库? 使用机

我试图从包含时间、地点和名称的网页中解析实体。我读了一些关于自然语言处理和实体提取的书,但我不确定我是否走错了路,所以我在这里提问

我还没有开始实现任何东西,所以如果某些开源库只适用于特定的语言,那就可以了

很多时候,数据不会出现在句子中,而是出现在列表等html结构中(例如,2013-02-01-活动名称-竞技场名称)

网页的结构将大不相同(有些可能使用列表,有些可能将它们放在表格中,等等)

我可以研究哪些主题来了解如何实现这一目标? 在进行实体提取时,有没有考虑html结构的开源库? 使用机器视觉从html中提取这些(名称、时间、地点)实体会更好(甚至可能更好),因为CSS样式可能更容易区分非结构化文本的重要部分(名称、时间、位置)


任何关于我可以研究的主题/开源项目的指导都会对我有所帮助。

许多编程语言都有外部库,可以从各种格式(例如,在Java中,使用
SimpleDataFormat
)生成规范日期戳。正如您所说,web页面的结构会有很大的不同,但是日期只能用少量的变体来表示,所以写下一些(比如说,六种)格式的常规表达式将能够从大多数(如果不是全部的话)HTML页面中提取日期

然而,提取地名更难。这就是自然语言处理必须介入的领域。你要找的是一个系统。最好的开源NER系统之一是。在使用之前,您应该查看他们的。演示中有三个分类器(用于英语),您可以从中选择。对于我的大多数任务,我发现它们的
english.all.3class.distsim
分类器非常准确


请注意,当您提取的地名出现在句子中时,NER表现良好。如果它们将出现在HTML标签中,这种方法可能不会很有帮助。

我认为常见的情况是网页的结构将是名称/地点/日期不在句子中,因此我想我正在寻找其他想法。此外,日期可能需要自定义逻辑,因为月份(例如年)可能位于页面标题中,而日期位于列表项的正文中。我开始阅读有关计算机视觉的书籍,以及如何使用它来分割可能有用的网页。它可以考虑较大/粗体字体,以帮助选择姓名/日期。试图找到更多关于它的信息。