Stanford nlp 斯坦福大学的推特培训

Stanford nlp 斯坦福大学的推特培训,stanford-nlp,opennlp,tweets,named-entity-recognition,named-entity-extraction,Stanford Nlp,Opennlp,Tweets,Named Entity Recognition,Named Entity Extraction,我试图在tweet上训练我自己的模型,在我的模型中,我关心hashtags中的NEs。然而,我想不出一种方法可以让工具真正在数据中学习这些模式。以下是OpenNLP的培训记录示例: RAW Text ► Wright State is in #DaytonOH OpenNLP Training ► <START>Wright State<END> is in #<START>Dayton<END><START

我试图在tweet上训练我自己的模型,在我的模型中,我关心hashtags中的NEs。然而,我想不出一种方法可以让工具真正在数据中学习这些模式。以下是OpenNLP的培训记录示例:

        RAW Text   ►   Wright State is in #DaytonOH

OpenNLP Training   ►   <START>Wright State<END> is in #<START>Dayton<END><START>OH<END>
可以吗?我们如何让它在角色级而不是令牌级工作?你认为CRF模块会学习这些模式吗?或者我们应该忽略hashtag吗

提前谢谢


-H

我认为您需要解决的问题是输入的标记化——因为我怀疑大多数标记化者会将hashtag视为单个单词。您可能会像平常一样进行更多的幸运训练(作为示例),但可以扩展标记器,了解如何在可能的情况下将hashtag拆分为单独的标记(如果所有标记都是小写的,则可能更难)。我没有太多使用斯坦福图书馆,但是OpenNLP tokeniser相对来说比较容易扩展。您希望#标记是什么实体?所以我们希望能够在哈希标记中发现实体。由于我们在标签内部的不同层次上进行操作,我不确定如果不分解标签,然后找出其中的实体(如Rhinds所指出的那样),它是否会起作用。处理这样的标签实际上是一个分词问题,就像中文或日语一样。不幸的是,无论是斯坦福NLP还是OpenNLP,你都不能从盒子里拿出来。默认情况下,它们将把hashtag视为一个令牌,并在令牌级别标记实体。改变这一点需要的不仅仅是他们都使用的基于正则表达式的标记化——更像是基于词典或序列模型的分词器所使用的技术。感谢曼宁博士的回答。我认为你需要解决的问题是输入的标记化——因为我怀疑大多数标记化器都会使用哈希标记作为一个词。您可能会像平常一样进行更多的幸运训练(作为示例),但可以扩展标记器,了解如何在可能的情况下将hashtag拆分为单独的标记(如果所有标记都是小写的,则可能更难)。我没有太多使用斯坦福图书馆,但是OpenNLP tokeniser相对来说比较容易扩展。您希望#标记是什么实体?所以我们希望能够在哈希标记中发现实体。由于我们在标签内部的不同层次上进行操作,我不确定如果不分解标签,然后找出其中的实体(如Rhinds所指出的那样),它是否会起作用。处理这样的标签实际上是一个分词问题,就像中文或日语一样。不幸的是,无论是斯坦福NLP还是OpenNLP,你都不能从盒子里拿出来。默认情况下,它们将把hashtag视为一个令牌,并在令牌级别标记实体。改变这一点需要的不仅仅是他们都使用的基于正则表达式的标记化,更像是基于词典或序列模型的分词器所使用的技术。谢谢Manning博士的回答。
Wright   LOC
State    LOC
is       O
in       O
#        O
Dayton   LOC
OH       LOC