Python 更正历史拼写_Python_Python 3.x

Python 更正历史拼写

python python-3.x

Python 更正历史拼写,python,python-3.x,Python,Python 3.x,大家好，这是我第一次发布这个关注点。我正在编写一个python脚本来制作一个程序，该程序将返回标准单词形式。我根据规则转换历史文本（拼写规范化）。在这里，代码不能正常工作。它仅显示修改后的单词，而不显示整个文件。请告诉我如何解决这个问题 import re, string, unicodedata from nltk.corpus import stopwords import spacy import codecs nlp = spacy.load('fr') with codecs.ope

大家好，这是我第一次发布这个关注点。我正在编写一个python脚本来制作一个程序，该程序将返回标准单词形式。我根据规则转换历史文本（拼写规范化）。在这里，代码不能正常工作。它仅显示修改后的单词，而不显示整个文件。请告诉我如何解决这个问题

import re, string, unicodedata
from nltk.corpus import stopwords
import spacy
import codecs

nlp = spacy.load('fr')
with codecs.open(r'/home/m16/fatkab/RD_project/corpus.txt', encoding='utf8')as f:
    word =f.read()
    tokens = re.split(r'\W+', word)
    print (tokens)

for word in tokens:
    rule1 = word.replace('y', 'i')

    # to avoid modifying y as a word itself:
    if word.endswith ('y')and len(word) >= 2:
        print(rule1)

我的示例输入：或puis que Dieu est ainsi denderu 理性，你是一个理性的沟通者 ainsi sa bont：这不是我们的理由你是说什么？我们是一个天才这是一个很好的例子我们的儿子是遗产，我们的儿子是财产帕尔萨维尔图？欧洲谷物协会审慎地说，我们的护林员是一个谦逊的人这是我的信条普雷西普帕莫斯作者梅丽托伊特- Loy 奇迹发生了吗？汽车驾驶和命令简化了吗莫伊斯·德·帕勒（Moyse de parler）酒店先知之子：蒙塔涅的轮胎，这是人类公司的分册我的朋友们，我的朋友们第三种是普通动物和非点普通动物

这是输出

lui
lui
lui
ai
oui
Loi
lui
foi
Loi
hui
soi
lui
lui
lui
ci
Loi
soi
lui
ai
lui
lui
doi
quoi
soi
ai
lui
lui
soi
# the language is French

对整个文本使用re.sub。

regex的一个主要好处是，您可以跨大量文本运行规则，而无需手动标记和重建输出

import re
text = "ouy you are the best luy guy in the try"
sub_pattern = re.compile(r"y(\W+|$)")
print(re.sub(sub_pattern, r"i\1", text))
# oui you are the best lui gui in the tri

在这里，我们使用

re.sub

功能在整个文件中用替换项替换模式的每个匹配项

为了保持行之间的空格，我们在替换模式中使用backreference

\1

。这会将匹配中的捕获组（1）中的文本添加回输出中

import re
text = "ouy you are the best luy guy in the try"
sub_pattern = re.compile(r"y(\W+|$)")
print(re.sub(sub_pattern, r"i\1", text))
# oui you are the best lui gui in the tri

正则表达式模式解释：

re.compile

-如果你反复使用同一个正则表达式，编译一次就可以让机器不必继续重新计算它。在本例中，为了清晰起见，它只是用来将正则表达式分离到自己的行中

r“y（\W+|$）”

告诉python将字符串视为原始字符串，即反斜杠不会错误地转义字符。要匹配字符串末尾的“y”，规则是“后跟非单词字符的“y”，或字符串结尾（$）”。这是我们用来匹配输入中所有“不正确”的“y”结尾的模式。请注意，空白是在组

（）

中捕获的，因此我们可以在后面的反向引用中使用它

r“i\1”1

-首先，我们希望根据您的规则将匹配的y+空格替换为“i”。然后，我们需要确保将空格放回，这是我们使用backreference

\1

所做的，它添加了group1在模式

（\W+|$）

中捕获的任何内容

或者

不是捕获空白，而是替换它并将其重新添加。我们也可以在原始模式中使用非捕获组-因此我们只捕获“y”并替换它

为此，您可以使用以下模式：

sub_pattern = re.compile(r"y(?=\W+|$)")
print(re.sub(sub_pattern, r"i", text))
# oui you are the best lui gui in the tri

请注意，现在空白匹配模式前面加了

？=

，这表示它是一个非捕获前瞻模式。这意味着它将检查这些字符是否存在于“y”之后，但在替换期间不会从字符串中删除它们。因此，替换只需替换为“i”，因为空格不会被修改。

请添加您的代码、尝试以及最后的错误消息或至少不正确的输出。对于您的问题，我们无法重现您的问题。@Timat应该这样说。：-）@Timat请将您的代码添加到帖子本身，而不是评论中。您还可以添加示例输入吗？这非常有用！非常感谢你的大力帮助，然而，我有一个关于其他修改的问题。当字符被改变的时候，如何使用正则表达式位于单词的中间，还涉及到许多来自不同词条的单词，例如我们的“SouuaGe，GuueNeNeMess，iNooCK”等，我需要把一个“U”变成“V”。因为我不擅长正则表达式，所以我是单独进行的。@Timat通常最简单的解决方案是创建一些单独的规则来解决单个/特定的问题（例如结束y->I），然后一个接一个地运行它们（而不是试图创建单个正则表达式模式来解决所有问题）。例如，对于您的“uu”规则，您可以简单地将所有“uu”替换为“v”，或者甚至检查类似于

（？=\w）uu（？=\w）

的内容，以确保“uu”前后至少有一个字母。如果您仍然不确定，请单独提问，如果已经解决了您最初发布的问题，请将其标记为已接受。