Python 从报纸文章中提取古吉拉特语（谷歌输入工具支持的语言）文本_Python_Text_Extract_Google Docs_Google Docs Api

Python 从报纸文章中提取古吉拉特语（谷歌输入工具支持的语言）文本

python text

Python 从报纸文章中提取古吉拉特语（谷歌输入工具支持的语言）文本,python,text,extract,google-docs,google-docs-api,Python,Text,Extract,Google Docs,Google Docs Api,我想从报纸文章（照片/数字副本）中提取（古吉拉特语）文本目前我手动将文章裁剪成小块，因为大多数工具都是水平提取文本，这不适用于报纸文章的专栏结构然后，我垂直合并所有图像，并将其上传到google drive 然后，我用谷歌文档打开图像，在那里我可以很准确地得到图像和文本（因为谷歌输入工具支持古吉拉特语）我正在尝试自动化上面的所有任务，以便我只将报纸文章作为输入，并获得最终文本输出我听说过python自动化脚本，但不知道如何使用它因此，我最终需要按系列执行两项任务：（1）从报纸文章

我想从报纸文章（照片/数字副本）中提取（古吉拉特语）文本

目前我手动将文章裁剪成小块，因为大多数工具都是水平提取文本，这不适用于报纸文章的专栏结构

然后，我垂直合并所有图像，并将其上传到google drive

然后，我用谷歌文档打开图像，在那里我可以很准确地得到图像和文本（因为谷歌输入工具支持古吉拉特语）

我正在尝试自动化上面的所有任务，以便我只将报纸文章作为输入，并获得最终文本输出

我听说过python自动化脚本，但不知道如何使用它

因此，我最终需要按系列执行两项任务：（1）从报纸文章中按顺序识别块，（2）图像->文本转换

下面是一个示例文章图像：

请帮助我了解“如何加快我的任务？”

首先，您需要熟悉自己。首先，以下是基本思路：

# convert the image to binary
import cv2
image = cv2.imread('news.jpg')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) # convert2grayscale
(thresh, binary) = cv2.threshold(gray, 150, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU) # convert2binary
cv2.imshow('binary', binary)
(_, contours, _) = cv2.findContours(~binary,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_SIMPLE) 
# find contours
for contour in contours:
    """
    draw a rectangle around those contours on main image
    """
    [x,y,w,h] = cv2.boundingRect(contour)
    cv2.rectangle(image, (x,y), (x+w,y+h), (0, 255, 0), 1)
cv2.imshow('contour', image)

之后，请阅读（用于python的光学字符识别（OCR）工具）

我要提到的一些有用的资料可能对您有所帮助：

你能分享一下你迄今为止所做的尝试吗。这似乎是一项容易的任务。我建议你应该在线阅读文章。我已经尝试过许多软件和移动应用程序，它们专门用于从图像中提取古吉拉特语文本（我现在没有这些名称），但与谷歌文档相比，它们的准确性很低。此外，所有的解决方案都需要手动确定段落的顺序，因为报纸文章可能有多个栏目。早些时候有人告诉我，python有很多很好的文本提取库，但我不确定它是否适用于古吉拉特语。