Nlp 自定义字标记器

Nlp 自定义字标记器,nlp,nltk,Nlp,Nltk,我是NLP的新手,正在逐渐了解NLTK,但在我试图完成的事情上起步时遇到了一些困难 我想构建我自己的word tagger,这样如果我传递一个字符串,如“The Porsche is red”,函数将返回('Porsche'、'Car'、'red'、'Color') 我已经建立了定义类别的词典。我只是在挣扎如何开始。有人能提供一些帮助吗 非常感谢 更新:此时的词典是一个简单的两列列表,采用.csv格式,包含单词及其对应的类别 示例链接: 真诚地, Mick我认为在列表中进行简单的查找可能会奏效。

我是NLP的新手,正在逐渐了解NLTK,但在我试图完成的事情上起步时遇到了一些困难

我想构建我自己的word tagger,这样如果我传递一个字符串,如“The Porsche is red”,函数将返回('Porsche'、'Car'、'red'、'Color')

我已经建立了定义类别的词典。我只是在挣扎如何开始。有人能提供一些帮助吗

非常感谢

更新:此时的词典是一个简单的两列列表,采用.csv格式,包含单词及其对应的类别

示例链接:

真诚地,
Mick

我认为在列表中进行简单的查找可能会奏效。首先标记文本,然后遍历标记并在类别列表中查找列表中的每个标记

您可能遇到的一个问题是类别之间的重叠。是否有任何单词出现在多个类别列表中?如果是这样,您需要一种方法来消除给定标记所属类别的歧义。如果不是,简单的列表查找应该可以工作

更准确地说,我将一步一步地做:

  • 将数据导入字典
  • 标记文本
  • 对于每个令牌,查找令牌是否在字典的键中
  • 根据单词所属的类别标记它

  • 希望对您有所帮助。

    您能发布一个指向该词典的链接(或其示例)并简要描述其格式吗?谢谢您的快速回复。我已经更新了帖子。Andreas谢谢你的帮助!这给了我一些思考的东西。