Nlp 是否有一个既定的方法来标记您自己的语料库,以便使用NLTK进行监督学习?

Nlp 是否有一个既定的方法来标记您自己的语料库,以便使用NLTK进行监督学习?,nlp,nltk,Nlp,Nltk,我正准备在专门的语料库上实现有监督的命名实体识别。这意味着我需要通过命名实体来标记原始文本。似乎NLTK将一个标记作为一个由标记和标记组成的元组。因此,我的计划是从一个文件中随机抽取一些行,在每行上放置一个单词,手动标记作为csv文件实体的单词,然后将csv文件读回以创建令牌/标记元组 然后从文档中执行以下操作: supervised = [] for line in file: token, tag = line.split(",") supervised.append(token

我正准备在专门的语料库上实现有监督的命名实体识别。这意味着我需要通过命名实体来标记原始文本。似乎NLTK将一个标记作为一个由标记和标记组成的元组。因此,我的计划是从一个文件中随机抽取一些行,在每行上放置一个单词,手动标记作为csv文件实体的单词,然后将csv文件读回以创建令牌/标记元组

然后从文档中执行以下操作:

supervised = []
for line in file:
   token, tag = line.split(",")
   supervised.append(token, tag))

featuresets = [(feature_extractor(token), tag) for (token, tag) in supervised]

NLP从业者通常就是这样做的吗?有更好的方法吗?有金本位吗?人们是否在语料库结构中标记实体?有点像这样:

您将需要大约20万字的标记数据。您将需要一致的标记数据。对于一个人来说通常不实用。@b争论这个数字是从哪里来的?没人给自己的小体贴标签?我所说的根本就没做过?我是NLP的新手,正在努力学习这方面的知识。一个团队为我构建和维护统计提取器。在关于统计提取技术的优秀论文中,你也会发现类似的数字。