Parsing 除了英语之外,还有其他语言的NLP语义分析工具吗

Parsing 除了英语之外,还有其他语言的NLP语义分析工具吗,parsing,nlp,question-answering,Parsing,Nlp,Question Answering,我想解析Malayalam(印度语)文本语料库来开发一个问答系统。除了英语之外,还有其他语言的NLP语义解析工具吗。这听起来可能很吓人 据我所知,没有一个自由软件问答系统可以供你学习,即使它有文档记录 问题回答分为两部分: 理解问题 在预处理的数据集中查找响应(例如) 这两个步骤都需要类似的算法 垂直问答管道 要实现垂直问答系统,您需要能够在高水平上解析“马来语”和其他印度语言,这意味着至少要做到: 将文本分成段落,然后分成句子和单词。你必须能说出句子的结尾。例如,根据语言的不同,句子可能

我想解析Malayalam(印度语)文本语料库来开发一个问答系统。除了英语之外,还有其他语言的NLP语义解析工具吗。

这听起来可能很吓人

据我所知,没有一个自由软件问答系统可以供你学习,即使它有文档记录

问题回答分为两部分:

  • 理解问题
  • 在预处理的数据集中查找响应(例如)
这两个步骤都需要类似的算法

垂直问答管道

要实现垂直问答系统,您需要能够在高水平上解析“马来语”和其他印度语言,这意味着至少要做到:

  • 将文本分成段落,然后分成句子和单词。你必须能说出句子的结尾。例如,根据语言的不同,句子可能不会以相同的字符结尾。或者abbrev。例如,不是一句话的结尾
    I.B.M.
    不是三个句子,等等。句子是如何开始的,在英语中有一个大写字母,但不是所有大写字母都像专有名词一样开始一个句子,例如“乔姆斯基还活着吗?”

  • :辨别名词、专有名词、动词等

  • 创建a:确定人员、组织、地点、时间、数量、货币价值、百分比等的名称

  • 构建语义树依赖关系:例如,命名实体“她”或“他”指的是哪个?谁是句子的主语、补语等

  • 创建一个。如果你的程序理解这个问题,找到一个可能的答案,它必须用自然语言格式化

幸运的是,你从中获得灵感的英语学习实例并不缺乏。如果你想在Python上工作,你会想学习(想要快速和最新的NLP库)以及它

算法可以在语言之间共享

更狭隘的方法

如果您不想完成所有步骤,只想解决回答问题的子问题。您需要简化问题并消除变量/未知:

您必须使用已拆分并标记的事实构建一个数据库,这样您就可以通过执行SQL查询简单地回答问题。例如,给定以下事实元组:

谁:印度什么:赢得什么:板球锦标赛时间:2015年

在这里,我将标记简化为
WHO
WHEN
WHAT

回答这个问题很容易:

谁:?什么:赢得什么:板球锦标赛时间:2015年

2015年谁赢得了板球冠军

同样,问题必须是“可预测的”,并且易于分析其他示例:

什么时候谁做了什么

什么是什么

什么时候什么人

如果您能够识别/解析用户提供的句子中的
、何时以及猜测什么是
什么
,则此功能可以发挥作用。此外,您还可以进一步简化,当s只能是4位数字时,即年。并进一步限制问题的类型,简化解析部分

这将引导您找到一个程序,该程序能够以一种更自然、更正确的方式回答问题,就像原始ElasticSearch或PostgreSQL这样的信息检索(IR)系统一样

事实数据库

您可能需要使用Semantic network查看(如果您需要帮助或想要贡献indian wiktionary)或。还有wordnet

课程

我很喜欢,有一章是关于QA的。Jurafsky写了一本介绍NLP的全书

搜索提示

在万维网上搜索您查找信息的语言中有关NLP算法的信息。比如说,我在法语研究门户网站上或通过搜索引擎使用法语母语(即法语)进行搜索。美国的搜索引擎在英语以外的其他语言中并没有那么好,所以要准备好分页(也要使用搜索工具)

文化

建立良好的自然语言处理和人工智能文化。看看总结或信息检索(很容易),你们会学到可以在另一个问题中重复使用的方法。例如,如果你看一看,你会发现在这个行业中,他们使用简化的、不含糊的自然语言语法来准确地翻译文档。这些文档是用简单的英语编写的(例如,
主谓名词
),可以很容易地创建计算机语法(如计算机语言语法),并且可以很容易地进行逐字翻译。这是一个解决子问题以获得更高质量的实例。这就是我提出上述狭隘方法的原因

算法

最后但并非最不重要的一点是,大多数子问题解决方案属于以下三种算法类别之一:

  • 代数和图论试图利用这些数据并解释其结果。e、 g.PageRank、SimRank、CoSimRank、逻辑编程

  • 我将其与术语动力学相比较,基本上是“你解决了问题,但不知道为什么”。这就是所谓的“机器学习”,主要用于行业中解决与NLP相比实际上很窄的问题。但是机器学习算法仍然存在于解决自然语言问题,例如,但它不是唯一的例子。它很受欢迎

  • 混合:这意味着两种方法的混合

阅读更多关于二分法和研究/工程背景的见解

一般提示

你不需要知道和