Nlp 基于deeplearning的html数据自动提取

Nlp 基于deeplearning的html数据自动提取,nlp,deep-learning,information-extraction,structured-data,Nlp,Deep Learning,Information Extraction,Structured Data,我们处理的是网页,目标是让网络爬虫自动从中提取数据项/字段,并将数据放入数据库表中,而无需手动配置每个html页面来实现这一点。我们有足够的培训样本,我们正在尝试使用deeplearning,我们想出了几种方法: 从网页到数据库中结构化数据的端到端映射,我想使用问答或求和范式,但目前关于这些主题的论文都使用一段文本作为输入,而不是html页面。有适合html情况的深度学习模型吗 分解问题(深入学习模型可以处理):分别处理标记,使用一些cnn或rnn文本分类模型将每个标记分类到数据库的项目/字段中

我们处理的是网页,目标是让网络爬虫自动从中提取数据项/字段,并将数据放入数据库表中,而无需手动配置每个html页面来实现这一点。我们有足够的培训样本,我们正在尝试使用deeplearning,我们想出了几种方法:

  • 从网页到数据库中结构化数据的端到端映射,我想使用问答或求和范式,但目前关于这些主题的论文都使用一段文本作为输入,而不是html页面。有适合html情况的深度学习模型吗
  • 分解问题(深入学习模型可以处理):分别处理
    标记,使用一些cnn或rnn文本分类模型将每个标记分类到数据库的项目/字段中。问题是可能有许多标签包含相同类别的信息(公司名称、时间等),我们无法知道我们想要哪一个。也许我们可以结合html的一些“位置”特性,但仍然不清楚如何定义这些特性以及如何将它们合并到分类模型中以获得一个端到端的框架
  • 有更好的办法吗

  • 我一直在考虑同样的问题。我认为,缺乏回应表明,即使对于专家来说,这个问题也是多么棘手。gitHub上有很多机器学习项目都专注于“内容提取”(样板文件,可读性),但它们没有得到非常具体的数据。你有(一些)培训样本可以分享吗。我正在为同样的问题研究一种深入的学习方法,但它还不够成熟,无法与大家分享。但是如果样品是兼容的,也许我们可以合作。我一直在考虑同样的问题。我认为,缺乏回应表明,即使对于专家来说,这个问题也是多么棘手。gitHub上有很多机器学习项目都专注于“内容提取”(样板文件,可读性),但它们没有得到非常具体的数据。你有(一些)培训样本可以分享吗。我正在为同样的问题研究一种深入的学习方法,但它还不够成熟,无法与大家分享。但是如果样品是兼容的,也许我们可以合作。