Parsing 除了英语之外,还有其他语言的NLP语义分析工具吗
我想解析Malayalam(印度语)文本语料库来开发一个问答系统。除了英语之外,还有其他语言的NLP语义解析工具吗。这听起来可能很吓人 据我所知,没有一个自由软件问答系统可以供你学习,即使它有文档记录 问题回答分为两部分:Parsing 除了英语之外,还有其他语言的NLP语义分析工具吗,parsing,nlp,question-answering,Parsing,Nlp,Question Answering,我想解析Malayalam(印度语)文本语料库来开发一个问答系统。除了英语之外,还有其他语言的NLP语义解析工具吗。这听起来可能很吓人 据我所知,没有一个自由软件问答系统可以供你学习,即使它有文档记录 问题回答分为两部分: 理解问题 在预处理的数据集中查找响应(例如) 这两个步骤都需要类似的算法 垂直问答管道 要实现垂直问答系统,您需要能够在高水平上解析“马来语”和其他印度语言,这意味着至少要做到: 将文本分成段落,然后分成句子和单词。你必须能说出句子的结尾。例如,根据语言的不同,句子可能
- 理解问题
- 在预处理的数据集中查找响应(例如)
- 将文本分成段落,然后分成句子和单词。你必须能说出句子的结尾。例如,根据语言的不同,句子可能不会以相同的字符结尾。或者abbrev。例如,不是一句话的结尾
不是三个句子,等等。句子是如何开始的,在英语中有一个大写字母,但不是所有大写字母都像专有名词一样开始一个句子,例如“乔姆斯基还活着吗?”I.B.M.
- :辨别名词、专有名词、动词等
- 创建a:确定人员、组织、地点、时间、数量、货币价值、百分比等的名称
- 构建语义树依赖关系:例如,命名实体“她”或“他”指的是哪个?谁是句子的主语、补语等
- 创建一个。如果你的程序理解这个问题,找到一个可能的答案,它必须用自然语言格式化
WHO
、WHEN
和WHAT
回答这个问题很容易:
谁:?什么:赢得什么:板球锦标赛时间:2015年
即
2015年谁赢得了板球冠军
同样,问题必须是“可预测的”,并且易于分析其他示例:
什么时候谁做了什么
什么是什么
什么时候什么人
如果您能够识别/解析用户提供的句子中的谁
、何时以及猜测什么是什么
,则此功能可以发挥作用。此外,您还可以进一步简化,当s只能是4位数字时,即年。并进一步限制问题的类型,简化解析部分
这将引导您找到一个程序,该程序能够以一种更自然、更正确的方式回答问题,就像原始ElasticSearch或PostgreSQL这样的信息检索(IR)系统一样
事实数据库
您可能需要使用Semantic network查看(如果您需要帮助或想要贡献indian wiktionary)或。还有wordnet
课程
我很喜欢,有一章是关于QA的。Jurafsky写了一本介绍NLP的全书
搜索提示
在万维网上搜索您查找信息的语言中有关NLP算法的信息。比如说,我在法语研究门户网站上或通过搜索引擎使用法语母语(即法语)进行搜索。美国的搜索引擎在英语以外的其他语言中并没有那么好,所以要准备好分页(也要使用搜索工具)
文化
建立良好的自然语言处理和人工智能文化。看看总结或信息检索(很容易),你们会学到可以在另一个问题中重复使用的方法。例如,如果你看一看,你会发现在这个行业中,他们使用简化的、不含糊的自然语言语法来准确地翻译文档。这些文档是用简单的英语编写的(例如,主谓名词
),可以很容易地创建计算机语法(如计算机语言语法),并且可以很容易地进行逐字翻译。这是一个解决子问题以获得更高质量的实例。这就是我提出上述狭隘方法的原因
算法
最后但并非最不重要的一点是,大多数子问题解决方案属于以下三种算法类别之一:
- 代数和图论试图利用这些数据并解释其结果。e、 g.PageRank、SimRank、CoSimRank、逻辑编程
- 我将其与术语动力学相比较,基本上是“你解决了问题,但不知道为什么”。这就是所谓的“机器学习”,主要用于行业中解决与NLP相比实际上很窄的问题。但是机器学习算法仍然存在于解决自然语言问题,例如,但它不是唯一的例子。它很受欢迎
- 混合:这意味着两种方法的混合