如何使用Python分离、标记和转置XML中的不同文本片段？_Python_Regex_Xml_Nlp

如何使用Python分离、标记和转置XML中的不同文本片段？

python regex xml nlp

如何使用Python分离、标记和转置XML中的不同文本片段？,python,regex,xml,nlp,Python,Regex,Xml,Nlp,免责声明：说到编码，我还是个新手我正在用Python编辑一本词典。现在，假设我有以下分数： 25126,18（霍菲格·维奈特：）尼希特·埃拉本，尼希特·盖世太监：οὐκ ἐᾷ κατ᾽ αὐτῶν δυναστεύειν μέχρι ϑανάτου τὴν νόσον 我需要将德语文本与希腊语文本分开，并将其放入自己的标记中。然后我需要把德语文本放在轨迹前面，希腊文本放在前面。我如何做到这一点？我已经搜索了Regex和ElementTree，但还没有找到任何东西在列表中定义希腊字母。 Def

免责声明：说到编码，我还是个新手

我正在用Python编辑一本词典。现在，假设我有以下分数：

25126,18（霍菲格·维奈特：）尼希特·埃拉本，尼希特·盖世太监：οὐκ ἐᾷ κατ᾽ αὐτῶν δυναστεύειν μέχρι ϑανάτου τὴν νόσον

我需要将德语文本与希腊语文本分开，并将其放入自己的

标记中。然后我需要把德语文本放在轨迹前面，希腊文本放在前面。我如何做到这一点？我已经搜索了Regex和ElementTree，但还没有找到任何东西

在列表中定义希腊字母。
Define Greek letters in a list. 
Find first Greek letter in the lexicon entry.
Split the lexicon entry with string.split(position or letter)
Split the lexicon entry at the first '<' afterwards (i.e in </ab>)
Split the lexicon entry at the first '>' beforehand (i.e. in </link>)
Insert your new tag names.
Put the different strings together.

查找词典条目中的第一个希腊字母。
使用字符串拆分词典条目。拆分（位置或字母）
提前在第一个“”处拆分词典条目（即在中）
插入新的标记名。
把不同的弦放在一起。

这不是最好的解决方案，但非常简单。

你能提供一个期望输出的例子吗？我想是这样：

（häufig verneint:）nicht erlauben，nicht gestatten:25126,18οὐκ ἐᾷ κατ᾽ αὐτῶν δυναστεύειν μέχρι ϑανάτου τὴν νόσον

当然，我们必须修复锚定和编号。您有一个普遍的问题，因为您没有区分德语和希腊语的标记！提到一个可能适用于这种情况的过程，但您如何处理使用相同字符集的语言，即德语和英语？是的，这是我的问题。现在，这种排版方式使得词典无法阅读，因为德语最终位于轨迹后面，因此似乎是指以下轨迹，而不是前面的轨迹。我不知道该如何处理具有相同字符集的语言，老实说，这是解决这个问题的全部问题。谷歌：

单词级语言识别

谢谢，我会研究一下。也许最好的假设是在最后出现“：”而不是第一个希腊字符时拆分。使用

rfind

和按子字符串拆分。对于字母不易分离的语言而言，这可能更为强大。或者，你可以数“：”并且总是在中间的1+1处分开。这也是我们的想法。希腊语和德语通常用“：”、“-”、“）”等分隔。您建议我如何插入这些标记名？ElementTree似乎不适合我的需要，我正在尝试使用Regex，但我遇到了麻烦。ElementTree做得非常好。。