schema.org如何在nlp中提供帮助

schema.org如何在nlp中提供帮助,nlp,data-mining,Nlp,Data Mining,我基本上是在nlp上工作,从网页上收集基于兴趣的数据 我偶然发现这个来源在nlp方面很有帮助 我浏览了文档,从中可以看到它添加了额外的标记属性来标识html标记内容 它可以帮助搜索引擎根据用户的查询获取特定的数据 它说:Schema.org提供了一个共享词汇的集合,站长们可以使用这些词汇来标记他们的页面,主要的搜索引擎:谷歌、微软、Yandex和雅虎 但我不明白这对我成为nlp的人有什么帮助?通常,我解析网页内容以处理并从中提取数据。schema.org可能有帮助,但不知道如何利用它 任何例子或

我基本上是在nlp上工作,从网页上收集基于兴趣的数据

我偶然发现这个来源在nlp方面很有帮助

我浏览了文档,从中可以看到它添加了额外的标记属性来标识html标记内容

它可以帮助搜索引擎根据用户的查询获取特定的数据

它说:Schema.org提供了一个共享词汇的集合,站长们可以使用这些词汇来标记他们的页面,主要的搜索引擎:谷歌、微软、Yandex和雅虎

但我不明白这对我成为nlp的人有什么帮助?通常,我解析网页内容以处理并从中提取数据。schema.org可能有帮助,但不知道如何利用它


任何例子或指导都是值得注意的

Schema.org使用微数据格式进行表示。人们使用微数据进行文本分析和提取策划的内容。可以有许多应用程序

  • 假设您想要创建新闻摘要系统。因此,您可以使用
    hNews
    微格式来提取最相关的内容并执行汇总

  • 假设您有一个基于评论的搜索引擎,您想在其中列出评论最积极的产品。您可以使用
    hReview
    microfomrat提取评论,现在对其执行情绪分析,以确定产品是否有-ve或+ve评论

  • 如果要创建基于技能的简历分类器,请使用
    hResume
    microformat提取内容。它可以为您提供各种详细信息,如联系方式(使用hCard微格式)、经验、成就、与此工作相关的信息、教育、技能/资格、联系方式 、出版物、绩效/绩效技能等。您可以对其执行分类器,以使用特定技能集对CV进行分类
  • Think schema.org不能直接帮助
    nlp
    guys,它提供了以更好的方式执行文本处理的平台


    查看此页面可以查看各种mircorformat,同一页面将为您提供更多详细信息。

    Schema.org类似于一个词汇表或本体,用于注释数据,尤其是网页

    从网页中提取微数据是个好主意,但Web开发人员真的使用它吗?我不这么认为,我认为大多数微数据都被谷歌或雅虎等公司使用

    最后,你可以找到数据,但不是很多,主要用于特定类型的网站


    您想要提取什么以及提取什么类型的应用程序?因为您可能可以使用其他类型的数据,例如或。

    GoodRelations也支持schema.org。您可以根据定义的各种域上下文,从前端动态地为内容添加注释。因此,schema.org对于NLP提取非常有用。人们甚至可以将其用于超媒体链接关系的HATEOS服务。任何上下文的元数据(关于数据的数据)通常都有利于内容和数据。替代方案包括微格式、RDFa、RDFa Lite等。您拥有的上下文越多越好,因为它可以将您的数据转化为智能内容,并帮助爬虫机器人理解数据。它还将进一步引入数据网络,帮助在资源域上进行全局查询。从长远来看,这些方法将有助于代理适应网络上迁移学习的领域。几乎使网页成为大量常识知识库的外部化单元。它们还可以帮助广告公司了解出版商网站,更好地将广告重新定位到上下文中