Python 泰米尔语组块_Python_Unicode_Nltk_Chunking_Indic

Python 泰米尔语组块

python unicode

Python 泰米尔语组块,python,unicode,nltk,chunking,indic,Python,Unicode,Nltk,Chunking,Indic,我想为泰米尔语使用NLTK chunker，这是一种印度语未决问题如果我们对正则表达式使用re模块，那么Python的正则表达式表达式引擎生成超过最大递归深度的错误在处理非常大的文本时，即使对于应该不需要任何递归。因此，我们使用pre模块相反但请注意，pre不包括Unicode支持，所以此模块不适用于unicode字符串有没有关于变通方法或其他方法的建议？你可以用的是泰米尔语您可以查看在线演示。分块器是特定于语言的，所以您需要为泰米尔语培训一个。当然，如果您对现有的现成解决方案

我想为泰米尔语使用NLTK chunker，这是一种印度语

未决问题如果我们对正则表达式使用re模块，那么Python的正则表达式表达式引擎生成超过最大递归深度的错误在处理非常大的文本时，即使对于应该不需要任何递归。因此，我们使用pre模块相反但请注意，pre不包括Unicode支持，所以此模块不适用于unicode字符串

有没有关于变通方法或其他方法的建议？

你可以用的是泰米尔语

您可以查看在线演示。

分块器是特定于语言的，所以您需要为泰米尔语培训一个。当然，如果您对现有的现成解决方案感到满意，我不知道是否有，例如，如果现在删除的答案中的链接很好，您可以停止阅读此处。如果没有，你可以自己训练，但你需要一个语料库，用你想识别的词块进行注释：也许你在寻找NP词块——通常情况下是这样，但可能是别的

有了注释语料库后，请仔细阅读NLTK书的第6章和第7章，尤其是。第7章从nltk的regexp分块器开始，继续阅读，您将看到如何构建一个不依赖nltk的基于regexp的分块引擎的序列分类器。这是必不可少的，所以不要跳过它

这不是一项简单的任务：您需要了解分类器方法，将各个部分组合在一起，可能将语料库转换为，最后选择能够提供令人满意性能的功能。但它非常简单，可以用于任何语言或组块任务，只要有带注释的语料库。唯一开放的部分是想出上下文线索，您可以将其转换为特征，以帮助分类器正确地做出决定，并进行试验，直到找到一个好的组合。另一方面，这是一种比基于纯regexp的解决方案更强大的方法，即使对于ascii文本也是如此。

虽然此链接可以回答问题，但最好在此处包含答案的基本部分，并提供链接供参考。如果链接页面发生更改，仅链接的答案可能无效。-答案是参考其他库/软件，这是答案的基本部分。我还设置了网站的主页链接，以防特定链接失效，用户仍然可以访问主网站并找到解决方案。@Ashok Ramachandran-你能拼凑泰米尔语句子吗？泰米尔语浅层语法分析器：为什么会有否决票？该问题不仅明确说明，而且还附有记录该问题的参考资料。可以通过使其更加通用来改进：任何需要Unicode的语言都可以从答案中受益。