Python 正在从tesseract返回值中删除换行符\n

Python 正在从tesseract返回值中删除换行符\n,python,ocr,python-tesseract,post-processing,Python,Ocr,Python Tesseract,Post Processing,我有一组图像,每个图像对应一个我要传递给Pytesseract进行识别的名称。有些名称有点长,需要写在多行中,因此传递它们以供识别并将其保存到.txt文件会导致每个部分都写在新行中 这里有一个例子 这是公认的 MARTHE MVUMBI 而我需要它们是同一条线 另一个例子 它应该是穆罕默德·阿萨德·伊夫,但实际上它被存储为: 穆罕默德 ASSAD YVES 我以为我在过滤这类东西,但显然它不起作用。这是我正在使用的识别、存储和过滤代码 # Adding custom options fol

我有一组图像,每个图像对应一个我要传递给Pytesseract进行识别的名称。有些名称有点长,需要写在多行中,因此传递它们以供识别并将其保存到.txt文件会导致每个部分都写在新行中

这里有一个例子

这是公认的

MARTHE
MVUMBI
而我需要它们是同一条线

另一个例子

它应该是穆罕默德·阿萨德·伊夫,但实际上它被存储为:

穆罕默德

ASSAD YVES

我以为我在过滤这类东西,但显然它不起作用。这是我正在使用的识别、存储和过滤代码

# Adding custom options
folder = rf"C:\Users\lenovo\PycharmProjects\SoftOCR_PFE\name_results"
custom_config = r'--oem 3 --psm 6'
words = []
filenames = os.listdir(folder)
filenames.sort()
for directory in filenames:
    print(directory)
    for img in glob.glob(rf"name_results\{directory}\*.png"):
        text = pytesseract.image_to_string(img, config=custom_config)
        words.append(text)
    words.append("\n")
all_caps = list([s.strip() for s in words if s == s.upper() and s != 'NOM' and s != 'PRENOM'])

no_blank = list([string for string in all_caps if string != ""])

with open('temp.txt', 'w+') as filehandle:
    for listitem in no_blank:
        filehandle.write(f'{listitem}\n')
uncleanText = open("temp.txt").read()
cleanText = re.sub('[^A-Za-z0-9\s\d]+', '', uncleanText)
open('saved_names.txt', 'w').write(cleanText)

我不得不再次发帖,因为我的最后一个问题是在深夜发布的,没有得到任何行动。

我会尝试在行后添加:

text = pytesseract.image_to_string(img, config=custom_config)
这一行:

text = text.replace("\n", " ")
更新

还有一个问题。如何使用文件中的
连接第二行并将其保存回文件中。可以这样做:

with open("temp.txt", "r") as f:
    names = f.readlines()

names = [n.replace("\n", "") for n in names]
names = [", ".join(names[i:i+2]) for i in range(0, len(names), 2)]

with open("temp.txt", "w") as f:
    f.write("\n".join(names))

你可以把它添加到一个列表中,然后使用
''。加入(你的列表)
我可以私下给你留言吗。很多文件都在写,这让我很疯狂。但我不确定它在这里是如何工作的。它不,你不能这么说。如果你有不和谐的可能?或者其他形式的交流我只是关注你的twitter.com/MoudhafferBoua1,我真的不使用twitter,不知道我如何与你联系,但我的不和谐也是B#u moudhaffer#8596