Python 3.x Python中的文本/图像处理

Python 3.x Python中的文本/图像处理,python-3.x,image-processing,web-scraping,neural-network,nlp,Python 3.x,Image Processing,Web Scraping,Neural Network,Nlp,简介: 我试图从大量文本的图像中获取某些文本 只要想一想,至少应该有两种方法来处理这个问题: 一种方法是首先通过文本区域分割图像-例如,使用一组包含样本文本的样本图像训练神经网络,然后让训练后的模型在真实图像中定位相应的文本区域,然后从图像中裁剪出该区域,保存-然后使用,例如,pytesseract将图像转换为字符串 另一种方法是反转过程。首先将图像转换成字符串,然后用样本真实文本训练神经网络,然后让训练后的模型在图像转换后的文本中找到相应的文本 因此,我的问题如下: 这个问题不需要训练神经网

简介:

我试图从大量文本的图像中获取某些文本

只要想一想,至少应该有两种方法来处理这个问题:

一种方法是首先通过文本区域分割图像-例如,使用一组包含样本文本的样本图像训练神经网络,然后让训练后的模型在真实图像中定位相应的文本区域,然后从图像中裁剪出该区域,保存-然后使用,例如,
pytesseract
将图像转换为字符串

另一种方法是反转过程。首先将图像转换成字符串,然后用样本真实文本训练神经网络,然后让训练后的模型在图像转换后的文本中找到相应的文本


因此,我的问题如下:

  • 这个问题不需要训练神经网络就能解决吗?在运行程序所需的时间和结果的准确性方面,它会比神经网络更有效吗

  • 在我写的上述两种方法中,就运行程序所花费的时间和结果的准确性而言,哪一种更好

  • 还有其他有经验的建议吗?

  • 如有需要,请提供其他背景信息:

    所以,我有很多不同网页的截图,每个网页上都有很多文本。我想从大量的文本中提取某些段落。我想摘录的段落表达了相似的东西,但在不同的背景下

    例如,在一个大型的混合在线论坛平台上,人们对不同的事物发表了许多评论,一些是关于山的风景,一些是政治,一些是科学等等。。。由于该平台不能只有一个页面,因此必须有数百个页面,无数用户在其中发表评论。现在我想特别从整个论坛中,即从该平台的所有页面中,提取关于政治的评论。因此,我将使用
    Python
    +
    Selenium
    来刮取页面并保存屏幕截图。现在我们需要回到上面提出的问题。现在该怎么办


    更新:


    只是一个念头过去了。可能由包含文本的图像训练的神经网络无法给出所需文本的非常准确的位置,因为神经网络可能只寻找像素的排列,而不是组成句子或段落的单词,甚至意义。那么,在这种情况下,第二种方法,文本处理,可能会更好?(如
    NLP
    ?)

    因此,您决定不解析文本,而是将其保存为图像,然后从该图像中检测文本

    文本->图像->文本

    这是解析网页最糟糕的情况

    在处理OCR时,您必须预料到许多问题,例如:

  • CPU消耗高

  • 不同字体

  • 隐藏元素(如“请参阅全文”)

  • 最主要的一点是,你不能100%准确地进行光学字符识别

  • 若您试图创建公共解析器,那个么它应该只从给定的任何页面抓取所需的文本,而不包含任何“垃圾”——这几乎是乌托邦式的想法


    据我所知,这是一种“HTML可读性”技术(Safari和Firefox等浏览器使用它)。但我不能说它将如何与论坛合作。论坛是一种非常特殊的页面格式。

    @Aaron我试过了。但实际情况甚至比给出的示例更复杂,这大约相当于从不同论坛的页面中提取文本。如果我使用
    css选择器
    x路径
    ,我将需要手动复制数百个甚至更多的东西,这些东西效率不高,很容易产生错误。因此,我认为解决这个问题的最佳方法可能是使用图像。