Stanford nlp 斯坦福大学的推特培训_Stanford Nlp_Opennlp_Tweets_Named Entity Recognition_Named Entity Extraction

Stanford nlp 斯坦福大学的推特培训

stanford-nlp

Stanford nlp 斯坦福大学的推特培训,stanford-nlp,opennlp,tweets,named-entity-recognition,named-entity-extraction,Stanford Nlp,Opennlp,Tweets,Named Entity Recognition,Named Entity Extraction,我试图在tweet上训练我自己的模型，在我的模型中，我关心hashtags中的NEs。然而，我想不出一种方法可以让工具真正在数据中学习这些模式。以下是OpenNLP的培训记录示例： RAW Text ► Wright State is in #DaytonOH OpenNLP Training ► <START>Wright State<END> is in #<START>Dayton<END><START

我试图在tweet上训练我自己的模型，在我的模型中，我关心hashtags中的NEs。然而，我想不出一种方法可以让工具真正在数据中学习这些模式。以下是OpenNLP的培训记录示例：

        RAW Text   ►   Wright State is in #DaytonOH

OpenNLP Training   ►   <START>Wright State<END> is in #<START>Dayton<END><START>OH<END>

可以吗？我们如何让它在角色级而不是令牌级工作？你认为CRF模块会学习这些模式吗？或者我们应该忽略hashtag吗

提前谢谢

-H

我认为您需要解决的问题是输入的标记化——因为我怀疑大多数标记化者会将hashtag视为单个单词。您可能会像平常一样进行更多的幸运训练（作为示例），但可以扩展标记器，了解如何在可能的情况下将hashtag拆分为单独的标记（如果所有标记都是小写的，则可能更难）。我没有太多使用斯坦福图书馆，但是OpenNLP tokeniser相对来说比较容易扩展。您希望#标记是什么实体？所以我们希望能够在哈希标记中发现实体。由于我们在标签内部的不同层次上进行操作，我不确定如果不分解标签，然后找出其中的实体（如Rhinds所指出的那样），它是否会起作用。处理这样的标签实际上是一个分词问题，就像中文或日语一样。不幸的是，无论是斯坦福NLP还是OpenNLP，你都不能从盒子里拿出来。默认情况下，它们将把hashtag视为一个令牌，并在令牌级别标记实体。改变这一点需要的不仅仅是他们都使用的基于正则表达式的标记化——更像是基于词典或序列模型的分词器所使用的技术。感谢曼宁博士的回答。我认为你需要解决的问题是输入的标记化——因为我怀疑大多数标记化器都会使用哈希标记作为一个词。您可能会像平常一样进行更多的幸运训练（作为示例），但可以扩展标记器，了解如何在可能的情况下将hashtag拆分为单独的标记（如果所有标记都是小写的，则可能更难）。我没有太多使用斯坦福图书馆，但是OpenNLP tokeniser相对来说比较容易扩展。您希望#标记是什么实体？所以我们希望能够在哈希标记中发现实体。由于我们在标签内部的不同层次上进行操作，我不确定如果不分解标签，然后找出其中的实体（如Rhinds所指出的那样），它是否会起作用。处理这样的标签实际上是一个分词问题，就像中文或日语一样。不幸的是，无论是斯坦福NLP还是OpenNLP，你都不能从盒子里拿出来。默认情况下，它们将把hashtag视为一个令牌，并在令牌级别标记实体。改变这一点需要的不仅仅是他们都使用的基于正则表达式的标记化，更像是基于词典或序列模型的分词器所使用的技术。谢谢Manning博士的回答。

Wright   LOC
State    LOC
is       O
in       O
#        O
Dayton   LOC
OH       LOC