Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/329.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 泰米尔语组块_Python_Unicode_Nltk_Chunking_Indic - Fatal编程技术网

Python 泰米尔语组块

Python 泰米尔语组块,python,unicode,nltk,chunking,indic,Python,Unicode,Nltk,Chunking,Indic,我想为泰米尔语使用NLTK chunker,这是一种印度语 未决问题 如果我们对正则表达式使用re模块,那么Python的正则表达式 表达式引擎生成超过最大递归深度的错误 在处理非常大的文本时,即使对于 应该不需要任何递归。因此,我们使用pre模块 相反但请注意,pre不包括Unicode支持,所以 此模块不适用于unicode字符串 有没有关于变通方法或其他方法的建议?你可以用的是泰米尔语 您可以查看在线演示。分块器是特定于语言的,所以您需要为泰米尔语培训一个。当然,如果您对现有的现成解决方案

我想为泰米尔语使用NLTK chunker,这是一种印度语

未决问题 如果我们对正则表达式使用re模块,那么Python的正则表达式 表达式引擎生成超过最大递归深度的错误 在处理非常大的文本时,即使对于 应该不需要任何递归。因此,我们使用pre模块 相反但请注意,pre不包括Unicode支持,所以 此模块不适用于unicode字符串

有没有关于变通方法或其他方法的建议?

你可以用的是泰米尔语


您可以查看在线演示。

分块器是特定于语言的,所以您需要为泰米尔语培训一个。当然,如果您对现有的现成解决方案感到满意,我不知道是否有,例如,如果现在删除的答案中的链接很好,您可以停止阅读此处。如果没有,你可以自己训练,但你需要一个语料库,用你想识别的词块进行注释:也许你在寻找NP词块——通常情况下是这样,但可能是别的

有了注释语料库后,请仔细阅读NLTK书的第6章和第7章,尤其是。第7章从nltk的regexp分块器开始,继续阅读,您将看到如何构建一个不依赖nltk的基于regexp的分块引擎的序列分类器。这是必不可少的,所以不要跳过它


这不是一项简单的任务:您需要了解分类器方法,将各个部分组合在一起,可能将语料库转换为,最后选择能够提供令人满意性能的功能。但它非常简单,可以用于任何语言或组块任务,只要有带注释的语料库。唯一开放的部分是想出上下文线索,您可以将其转换为特征,以帮助分类器正确地做出决定,并进行试验,直到找到一个好的组合。另一方面,这是一种比基于纯regexp的解决方案更强大的方法,即使对于ascii文本也是如此。

虽然此链接可以回答问题,但最好在此处包含答案的基本部分,并提供链接供参考。如果链接页面发生更改,仅链接的答案可能无效。-答案是参考其他库/软件,这是答案的基本部分。我还设置了网站的主页链接,以防特定链接失效,用户仍然可以访问主网站并找到解决方案。@Ashok Ramachandran-你能拼凑泰米尔语句子吗?泰米尔语浅层语法分析器:为什么会有否决票?该问题不仅明确说明,而且还附有记录该问题的参考资料。可以通过使其更加通用来改进:任何需要Unicode的语言都可以从答案中受益。