Machine learning 如何使用自然语言处理或其他技术从html中提取实体_Machine Learning_Nlp_Named Entity Extraction

Machine learning 如何使用自然语言处理或其他技术从html中提取实体

machine-learning nlp

Machine learning 如何使用自然语言处理或其他技术从html中提取实体,machine-learning,nlp,named-entity-extraction,Machine Learning,Nlp,Named Entity Extraction,我试图从包含时间、地点和名称的网页中解析实体。我读了一些关于自然语言处理和实体提取的书，但我不确定我是否走错了路，所以我在这里提问我还没有开始实现任何东西，所以如果某些开源库只适用于特定的语言，那就可以了很多时候，数据不会出现在句子中，而是出现在列表等html结构中（例如，2013-02-01-活动名称-竞技场名称）网页的结构将大不相同（有些可能使用列表，有些可能将它们放在表格中，等等）我可以研究哪些主题来了解如何实现这一目标？在进行实体提取时，有没有考虑html结构的开源库？使用机

我试图从包含时间、地点和名称的网页中解析实体。我读了一些关于自然语言处理和实体提取的书，但我不确定我是否走错了路，所以我在这里提问

我还没有开始实现任何东西，所以如果某些开源库只适用于特定的语言，那就可以了

很多时候，数据不会出现在句子中，而是出现在列表等html结构中（例如，2013-02-01-活动名称-竞技场名称）

网页的结构将大不相同（有些可能使用列表，有些可能将它们放在表格中，等等）

我可以研究哪些主题来了解如何实现这一目标？在进行实体提取时，有没有考虑html结构的开源库？使用机器视觉从html中提取这些（名称、时间、地点）实体会更好（甚至可能更好），因为CSS样式可能更容易区分非结构化文本的重要部分（名称、时间、位置）

任何关于我可以研究的主题/开源项目的指导都会对我有所帮助。

许多编程语言都有外部库，可以从各种格式（例如，在Java中，使用

SimpleDataFormat

）生成规范日期戳。正如您所说，web页面的结构会有很大的不同，但是日期只能用少量的变体来表示，所以写下一些（比如说，六种）格式的常规表达式将能够从大多数（如果不是全部的话）HTML页面中提取日期

然而，提取地名更难。这就是自然语言处理必须介入的领域。你要找的是一个系统。最好的开源NER系统之一是。在使用之前，您应该查看他们的。演示中有三个分类器（用于英语），您可以从中选择。对于我的大多数任务，我发现它们的

english.all.3class.distsim

分类器非常准确

请注意，当您提取的地名出现在句子中时，NER表现良好。如果它们将出现在HTML标签中，这种方法可能不会很有帮助。

我认为常见的情况是网页的结构将是名称/地点/日期不在句子中，因此我想我正在寻找其他想法。此外，日期可能需要自定义逻辑，因为月份（例如年）可能位于页面标题中，而日期位于列表项的正文中。我开始阅读有关计算机视觉的书籍，以及如何使用它来分割可能有用的网页。它可以考虑较大/粗体字体，以帮助选择姓名/日期。试图找到更多关于它的信息。