Python NLTK/pyNLTK能工作吗;每种语言“;(即非英语),以及如何进行?

Python NLTK/pyNLTK能工作吗;每种语言“;(即非英语),以及如何进行?,python,nlp,nltk,Python,Nlp,Nltk,我如何告诉NLTK以特定语言处理文本 偶尔我会编写一个专门的NLP例程,在非英语(但仍然是印地语-欧洲)文本域上进行词性标记、标记化等 这个问题似乎只针对不同的语料库,而不是代码/设置的变化: 或者,是否有专门针对python的希伯来语/西班牙语/波兰语NLP模块?我不确定您所指的代码/设置更改是什么。NLTK主要依赖于机器学习,“设置”通常从训练数据中提取 在词性标注方面,结果和标注将取决于您使用/培训的标注者。如果你自己训练,你当然需要一些西班牙语/波兰语的训练数据。这些可能很难找到的原因

我如何告诉NLTK以特定语言处理文本

偶尔我会编写一个专门的NLP例程,在非英语(但仍然是印地语-欧洲)文本域上进行词性标记、标记化等

这个问题似乎只针对不同的语料库,而不是代码/设置的变化:


或者,是否有专门针对python的希伯来语/西班牙语/波兰语NLP模块?

我不确定您所指的代码/设置更改是什么。NLTK主要依赖于机器学习,“设置”通常从训练数据中提取

在词性标注方面,结果和标注将取决于您使用/培训的标注者。如果你自己训练,你当然需要一些西班牙语/波兰语的训练数据。这些可能很难找到的原因是缺乏公开的金本位材料。有很多工具可以做到这一点,但这一个不适用于python()


nltk.tokenize.punkt.PunktSentenceTokenizer tokenizer将根据多语言句子边界对句子进行标记,其详细信息可在本文()中找到。

谢谢。punkt语句标记器似乎是正确的方向。如何让treetagger工作?