Python NLTK/pyNLTK能工作吗；每种语言“；（即非英语），以及如何进行？_Python_Nlp_Nltk

Python NLTK/pyNLTK能工作吗；每种语言“；（即非英语），以及如何进行？

python nlp

Python NLTK/pyNLTK能工作吗；每种语言“；（即非英语），以及如何进行？,python,nlp,nltk,Python,Nlp,Nltk,我如何告诉NLTK以特定语言处理文本偶尔我会编写一个专门的NLP例程，在非英语（但仍然是印地语-欧洲）文本域上进行词性标记、标记化等这个问题似乎只针对不同的语料库，而不是代码/设置的变化：或者，是否有专门针对python的希伯来语/西班牙语/波兰语NLP模块？我不确定您所指的代码/设置更改是什么。NLTK主要依赖于机器学习，“设置”通常从训练数据中提取在词性标注方面，结果和标注将取决于您使用/培训的标注者。如果你自己训练，你当然需要一些西班牙语/波兰语的训练数据。这些可能很难找到的原因

我如何告诉NLTK以特定语言处理文本

偶尔我会编写一个专门的NLP例程，在非英语（但仍然是印地语-欧洲）文本域上进行词性标记、标记化等

这个问题似乎只针对不同的语料库，而不是代码/设置的变化：

或者，是否有专门针对python的希伯来语/西班牙语/波兰语NLP模块？

我不确定您所指的代码/设置更改是什么。NLTK主要依赖于机器学习，“设置”通常从训练数据中提取

在词性标注方面，结果和标注将取决于您使用/培训的标注者。如果你自己训练，你当然需要一些西班牙语/波兰语的训练数据。这些可能很难找到的原因是缺乏公开的金本位材料。有很多工具可以做到这一点，但这一个不适用于python（）

nltk.tokenize.punkt.PunktSentenceTokenizer tokenizer将根据多语言句子边界对句子进行标记，其详细信息可在本文（）中找到。

谢谢。punkt语句标记器似乎是正确的方向。如何让treetagger工作？