Python 从报纸文章中提取古吉拉特语(谷歌输入工具支持的语言)文本

Python 从报纸文章中提取古吉拉特语(谷歌输入工具支持的语言)文本,python,text,extract,google-docs,google-docs-api,Python,Text,Extract,Google Docs,Google Docs Api,我想从报纸文章(照片/数字副本)中提取(古吉拉特语)文本 目前我手动将文章裁剪成小块,因为大多数工具都是水平提取文本,这不适用于报纸文章的专栏结构 然后,我垂直合并所有图像,并将其上传到google drive 然后,我用谷歌文档打开图像,在那里我可以很准确地得到图像和文本(因为谷歌输入工具支持古吉拉特语) 我正在尝试自动化上面的所有任务,以便我只将报纸文章作为输入,并获得最终文本输出 我听说过python自动化脚本,但不知道如何使用它 因此,我最终需要按系列执行两项任务: (1) 从报纸文章

我想从报纸文章(照片/数字副本)中提取(古吉拉特语)文本

目前我手动将文章裁剪成小块,因为大多数工具都是水平提取文本,这不适用于报纸文章的专栏结构

然后,我垂直合并所有图像,并将其上传到google drive

然后,我用谷歌文档打开图像,在那里我可以很准确地得到图像和文本(因为谷歌输入工具支持古吉拉特语)

我正在尝试自动化上面的所有任务,以便我只将报纸文章作为输入,并获得最终文本输出

我听说过python自动化脚本,但不知道如何使用它


因此,我最终需要按系列执行两项任务: (1) 从报纸文章中按顺序识别块, (2) 图像->文本转换

下面是一个示例文章图像:


请帮助我了解“如何加快我的任务?”

首先,您需要熟悉自己。首先,以下是基本思路:

# convert the image to binary
import cv2
image = cv2.imread('news.jpg')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) # convert2grayscale
(thresh, binary) = cv2.threshold(gray, 150, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU) # convert2binary
cv2.imshow('binary', binary)
(_, contours, _) = cv2.findContours(~binary,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_SIMPLE) 
# find contours
for contour in contours:
    """
    draw a rectangle around those contours on main image
    """
    [x,y,w,h] = cv2.boundingRect(contour)
    cv2.rectangle(image, (x,y), (x+w,y+h), (0, 255, 0), 1)
cv2.imshow('contour', image)
之后,请阅读(用于python的光学字符识别(OCR)工具)

我要提到的一些有用的资料可能对您有所帮助:


  • 你能分享一下你迄今为止所做的尝试吗。这似乎是一项容易的任务。我建议你应该在线阅读文章。我已经尝试过许多软件和移动应用程序,它们专门用于从图像中提取古吉拉特语文本(我现在没有这些名称),但与谷歌文档相比,它们的准确性很低。此外,所有的解决方案都需要手动确定段落的顺序,因为报纸文章可能有多个栏目。早些时候有人告诉我,python有很多很好的文本提取库,但我不确定它是否适用于古吉拉特语。