Latex 如何对包含数学表达式的文本进行词性标注?

Latex 如何对包含数学表达式的文本进行词性标注?,latex,nlp,mathml,mathematical-expressions,pos-tagger,Latex,Nlp,Mathml,Mathematical Expressions,Pos Tagger,目标是对科学文本进行句法分析。首先,我需要对这些文本的句子进行词性标注。文本来自arxiv.org。所以它们最初是乳胶的。从LaTeX文档提取文本时,可以将数学表达式转换为MathML(或者其他格式,但我更喜欢MathML,因为这项工作是为了创建一个特定的web应用程序,MathML是一个方便的工具) 我唯一的想法是用一些自然语言的短语替换数学表达式,然后使用一些实现的算法进行词性标注。所以问题是如何实现这种替换,或者,一般来说,如何实现文本的词性标注,其中包含数学?将所有数学公式替换为一个,独

目标是对科学文本进行句法分析。首先,我需要对这些文本的句子进行词性标注。文本来自arxiv.org。所以它们最初是乳胶的。从LaTeX文档提取文本时,可以将数学表达式转换为MathML(或者其他格式,但我更喜欢MathML,因为这项工作是为了创建一个特定的web应用程序,MathML是一个方便的工具)


我唯一的想法是用一些自然语言的短语替换数学表达式,然后使用一些实现的算法进行词性标注。所以问题是如何实现这种替换,或者,一般来说,如何实现文本的词性标注,其中包含数学?

将所有数学公式替换为一个,独特的单词似乎是一种方法。

我在Stanford tagger上实现了一个公式替换算法,效果非常好。正如abecadel所写的那样,要用一个唯一但新的单词替换每个公式,我使用了一个单词和一个哈希“formula duwkziah”的组合。

删除所有公式可以接受吗?如果是的话,你所需要做的就是在你的标记器中添加一条规则来删除数学表达式,并用类似公式的东西来替换它们。我试图用一个单词来替换数学。但问题是,数学表达式可以扮演各种句法角色:它们可以充当名词、数字或短语,因此这个决定会产生许多错误。有趣的是,我在twitter哈希标签上也看到过类似的工作。你能发一些例句吗。李本人开创了接触对称在DEs中的应用,他证明了对于n阶常微分方程(n≥3) 接触对称代数是有限维的。2.使用z=0时所需的连续性来求A=B,我们得到结果。。。3.在本文中,我们研究了具有类似于Q2D几何结构的分布式能量注入机制的颗粒流体中的流体动力模式。。。如果你对这个主题感兴趣,你可以看看文章,我已经转换成html。它们没有经过仔细的改造。但我们有可能对问题所在有一些印象。该链接是指向zip存档的链接,其中包含html格式的文章,还有list.html,用于更方便的浏览,并带有指向存档中所有文章的链接。