Parsing 除了英语之外，还有其他语言的NLP语义分析工具吗_Parsing_Nlp_Question Answering

Parsing 除了英语之外，还有其他语言的NLP语义分析工具吗

parsing nlp

Parsing 除了英语之外，还有其他语言的NLP语义分析工具吗,parsing,nlp,question-answering,Parsing,Nlp,Question Answering,我想解析Malayalam（印度语）文本语料库来开发一个问答系统。除了英语之外，还有其他语言的NLP语义解析工具吗。这听起来可能很吓人据我所知，没有一个自由软件问答系统可以供你学习，即使它有文档记录问题回答分为两部分：理解问题在预处理的数据集中查找响应（例如）这两个步骤都需要类似的算法垂直问答管道要实现垂直问答系统，您需要能够在高水平上解析“马来语”和其他印度语言，这意味着至少要做到：将文本分成段落，然后分成句子和单词。你必须能说出句子的结尾。例如，根据语言的不同，句子可能

我想解析Malayalam（印度语）文本语料库来开发一个问答系统。除了英语之外，还有其他语言的NLP语义解析工具吗。

这听起来可能很吓人

据我所知，没有一个自由软件问答系统可以供你学习，即使它有文档记录

问题回答分为两部分：

理解问题
在预处理的数据集中查找响应（例如）

这两个步骤都需要类似的算法

垂直问答管道

要实现垂直问答系统，您需要能够在高水平上解析“马来语”和其他印度语言，这意味着至少要做到：

将文本分成段落，然后分成句子和单词。你必须能说出句子的结尾。例如，根据语言的不同，句子可能不会以相同的字符结尾。或者abbrev。例如，不是一句话的结尾
```
I.B.M.
```
不是三个句子，等等。句子是如何开始的，在英语中有一个大写字母，但不是所有大写字母都像专有名词一样开始一个句子，例如“乔姆斯基还活着吗？”
：辨别名词、专有名词、动词等
创建a：确定人员、组织、地点、时间、数量、货币价值、百分比等的名称
构建语义树依赖关系：例如，命名实体“她”或“他”指的是哪个？谁是句子的主语、补语等
创建一个。如果你的程序理解这个问题，找到一个可能的答案，它必须用自然语言格式化

幸运的是，你从中获得灵感的英语学习实例并不缺乏。如果你想在Python上工作，你会想学习（想要快速和最新的NLP库）以及它

算法可以在语言之间共享

更狭隘的方法

如果您不想完成所有步骤，只想解决回答问题的子问题。您需要简化问题并消除变量/未知：

您必须使用已拆分并标记的事实构建一个数据库，这样您就可以通过执行SQL查询简单地回答问题。例如，给定以下事实元组：
谁：印度什么：赢得什么：板球锦标赛时间：2015年
在这里，我将标记简化为
WHO
、
WHEN
和
WHAT
回答这个问题很容易：
谁：？什么：赢得什么：板球锦标赛时间：2015年
即
2015年谁赢得了板球冠军
同样，问题必须是“可预测的”，并且易于分析其他示例：
什么时候谁做了什么
什么是什么
什么时候什么人
如果您能够识别/解析用户提供的句子中的
谁
、何时以及猜测什么是
什么
，则此功能可以发挥作用。此外，您还可以进一步简化，当s只能是4位数字时，即年。并进一步限制问题的类型，简化解析部分
这将引导您找到一个程序，该程序能够以一种更自然、更正确的方式回答问题，就像原始ElasticSearch或PostgreSQL这样的信息检索（IR）系统一样
事实数据库
您可能需要使用Semantic network查看（如果您需要帮助或想要贡献indian wiktionary）或。还有wordnet
课程
我很喜欢，有一章是关于QA的。Jurafsky写了一本介绍NLP的全书
搜索提示
在万维网上搜索您查找信息的语言中有关NLP算法的信息。比如说，我在法语研究门户网站上或通过搜索引擎使用法语母语（即法语）进行搜索。美国的搜索引擎在英语以外的其他语言中并没有那么好，所以要准备好分页（也要使用搜索工具）
文化
建立良好的自然语言处理和人工智能文化。看看总结或信息检索（很容易），你们会学到可以在另一个问题中重复使用的方法。例如，如果你看一看，你会发现在这个行业中，他们使用简化的、不含糊的自然语言语法来准确地翻译文档。这些文档是用简单的英语编写的（例如，
主谓名词
），可以很容易地创建计算机语法（如计算机语言语法），并且可以很容易地进行逐字翻译。这是一个解决子问题以获得更高质量的实例。这就是我提出上述狭隘方法的原因
算法
最后但并非最不重要的一点是，大多数子问题解决方案属于以下三种算法类别之一：

代数和图论试图利用这些数据并解释其结果。e、 g.PageRank、SimRank、CoSimRank、逻辑编程

我将其与术语动力学相比较，基本上是“你解决了问题，但不知道为什么”。这就是所谓的“机器学习”，主要用于行业中解决与NLP相比实际上很窄的问题。但是机器学习算法仍然存在于解决自然语言问题，例如，但它不是唯一的例子。它很受欢迎

混合：这意味着两种方法的混合

阅读更多关于二分法和研究/工程背景的见解
一般提示
你不需要知道和