Nlp 是否有一个既定的方法来标记您自己的语料库，以便使用NLTK进行监督学习？_Nlp_Nltk

Nlp 是否有一个既定的方法来标记您自己的语料库，以便使用NLTK进行监督学习？

nlp

Nlp 是否有一个既定的方法来标记您自己的语料库，以便使用NLTK进行监督学习？,nlp,nltk,Nlp,Nltk,我正准备在专门的语料库上实现有监督的命名实体识别。这意味着我需要通过命名实体来标记原始文本。似乎NLTK将一个标记作为一个由标记和标记组成的元组。因此，我的计划是从一个文件中随机抽取一些行，在每行上放置一个单词，手动标记作为csv文件实体的单词，然后将csv文件读回以创建令牌/标记元组然后从文档中执行以下操作： supervised = [] for line in file: token, tag = line.split(",") supervised.append(token

我正准备在专门的语料库上实现有监督的命名实体识别。这意味着我需要通过命名实体来标记原始文本。似乎NLTK将一个标记作为一个由标记和标记组成的元组。因此，我的计划是从一个文件中随机抽取一些行，在每行上放置一个单词，手动标记作为csv文件实体的单词，然后将csv文件读回以创建令牌/标记元组

然后从文档中执行以下操作：

supervised = []
for line in file:
   token, tag = line.split(",")
   supervised.append(token, tag))

featuresets = [(feature_extractor(token), tag) for (token, tag) in supervised]

NLP从业者通常就是这样做的吗？有更好的方法吗？有金本位吗？人们是否在语料库结构中标记实体？有点像这样：

您将需要大约20万字的标记数据。您将需要一致的标记数据。对于一个人来说通常不实用。@b争论这个数字是从哪里来的？没人给自己的小体贴标签？我所说的根本就没做过？我是NLP的新手，正在努力学习这方面的知识。一个团队为我构建和维护统计提取器。在关于统计提取技术的优秀论文中，你也会发现类似的数字。