如何使用Python分离、标记和转置XML中的不同文本片段?

如何使用Python分离、标记和转置XML中的不同文本片段?,python,regex,xml,nlp,Python,Regex,Xml,Nlp,免责声明:说到编码,我还是个新手 我正在用Python编辑一本词典。现在,假设我有以下分数: 25126,18(霍菲格·维奈特:)尼希特·埃拉本,尼希特·盖世太监:οὐκ ἐᾷ κατ᾽ αὐτῶν δυναστεύειν μέχρι ϑανάτου τὴν νόσον 我需要将德语文本与希腊语文本分开,并将其放入自己的标记中。然后我需要把德语文本放在轨迹前面,希腊文本放在前面。我如何做到这一点?我已经搜索了Regex和ElementTree,但还没有找到任何东西 在列表中定义希腊字母。 Def

免责声明:说到编码,我还是个新手

我正在用Python编辑一本词典。现在,假设我有以下分数:

25126,18(霍菲格·维奈特:)尼希特·埃拉本,尼希特·盖世太监:οὐκ ἐᾷ κατ᾽ αὐτῶν δυναστεύειν μέχρι ϑανάτου τὴν νόσον

我需要将德语文本与希腊语文本分开,并将其放入自己的
标记中。然后我需要把德语文本放在轨迹前面,希腊文本放在前面。我如何做到这一点?我已经搜索了Regex和ElementTree,但还没有找到任何东西

在列表中定义希腊字母。
Define Greek letters in a list. 
Find first Greek letter in the lexicon entry.
Split the lexicon entry with string.split(position or letter)
Split the lexicon entry at the first '<' afterwards (i.e in </ab>)
Split the lexicon entry at the first '>' beforehand (i.e. in </link>)
Insert your new tag names.
Put the different strings together.
查找词典条目中的第一个希腊字母。 使用字符串拆分词典条目。拆分(位置或字母) 提前在第一个“”处拆分词典条目(即在中) 插入新的标记名。 把不同的弦放在一起。

这不是最好的解决方案,但非常简单。

你能提供一个期望输出的例子吗?我想是这样:
(häufig verneint:)nicht erlauben,nicht gestatten:25126,18οὐκ ἐᾷ κατ᾽ αὐτῶν δυναστεύειν μέχρι ϑανάτου τὴν νόσον
当然,我们必须修复锚定和编号。您有一个普遍的问题,因为您没有区分德语和希腊语的标记!提到一个可能适用于这种情况的过程,但您如何处理使用相同字符集的语言,即德语和英语?是的,这是我的问题。现在,这种排版方式使得词典无法阅读,因为德语最终位于轨迹后面,因此似乎是指以下轨迹,而不是前面的轨迹。我不知道该如何处理具有相同字符集的语言,老实说,这是解决这个问题的全部问题。谷歌:
单词级语言识别
谢谢,我会研究一下。也许最好的假设是在最后出现“:”而不是第一个希腊字符时拆分。使用
rfind
和按子字符串拆分。对于字母不易分离的语言而言,这可能更为强大。或者,你可以数“:”并且总是在中间的1+1处分开。这也是我们的想法。希腊语和德语通常用“:”、“-”、“)”等分隔。您建议我如何插入这些标记名?ElementTree似乎不适合我的需要,我正在尝试使用Regex,但我遇到了麻烦。ElementTree做得非常好。。