CS最后一年项目是否有任何有趣的OCR/NLP相关项目?

CS最后一年项目是否有任何有趣的OCR/NLP相关项目?,nlp,ocr,Nlp,Ocr,我是一名计算机科学的大四学生,对OCR和NLP非常感兴趣 问题是我对OCR一无所知,我的项目持续时间只有5个月。我想知道OCR和NLP的东西,是我的项目可行的 为单一语言编写(简单的)OCR引擎对我的项目来说太难了吗?为现有的FOSS OCR软件添加语言支持怎么样?我的背景是OCR的商业方面,根据我的经验,除了简单的OCR引擎,写任何东西都需要相当长的时间。为了获得更合理的结果,您的输入文件必须包含用于OCR的非常干净的文本字符,或者您需要大量标记的训练数据来训练引擎。这将限制使用OCR的输入数

我是一名计算机科学的大四学生,对OCR和NLP非常感兴趣

问题是我对OCR一无所知,我的项目持续时间只有5个月。我想知道OCR和NLP的东西,是我的项目可行的


为单一语言编写(简单的)OCR引擎对我的项目来说太难了吗?为现有的FOSS OCR软件添加语言支持怎么样?

我的背景是OCR的商业方面,根据我的经验,除了简单的OCR引擎,写任何东西都需要相当长的时间。为了获得更合理的结果,您的输入文件必须包含用于OCR的非常干净的文本字符,或者您需要大量标记的训练数据来训练引擎。这将限制使用OCR的输入数据仅限于高质量打印文档和计算机生成的文档,例如将Word文档导出为TIFF图像。商业OCR引擎在读取标准扫描发票和信件方面比Tesseract OCR做得更好,而且它们仍然会出错

您可以编写一个简单的OCR引擎,并使用NLP和语言分析来展示它如何改进OCR结果。大多数OCR引擎都在这样做,但这可能是一个有趣的项目。商用引擎经过多年的微调,提高了识别精度,并且使用了他们能想到的所有技巧

本文可能会为您提供一些关于如何编写OCR引擎的方法的想法:


您可能能够为Tesseract项目做出贡献,但您首先需要研究哪些内容已经包含,哪些内容没有包含,以及是否有其他人正在处理相同的问题。

我的背景是OCR的商业方面,根据我的经验,除了简单的OCR引擎之外,编写任何内容都需要相当长的时间。为了获得更合理的结果,您的输入文件必须包含用于OCR的非常干净的文本字符,或者您需要大量标记的训练数据来训练引擎。这将限制使用OCR的输入数据仅限于高质量打印文档和计算机生成的文档,例如将Word文档导出为TIFF图像。商业OCR引擎在读取标准扫描发票和信件方面比Tesseract OCR做得更好,而且它们仍然会出错

您可以编写一个简单的OCR引擎,并使用NLP和语言分析来展示它如何改进OCR结果。大多数OCR引擎都在这样做,但这可能是一个有趣的项目。商用引擎经过多年的微调,提高了识别精度,并且使用了他们能想到的所有技巧

本文可能会为您提供一些关于如何编写OCR引擎的方法的想法:


您可以为Tesseract项目做出贡献,但您首先需要研究哪些内容已经包含,哪些内容没有包含,以及其他人是否正在处理相同的问题。

谢谢,您会为新手推荐哪些与OCR相关的书籍?我不参与编写OCR引擎。一个好的谷歌搜索应该会找到一些有趣的书。另外,这可能很有趣:这可能很有趣。另外:谢谢,你会为新手推荐哪些与OCR相关的书?我不参与编写OCR引擎。一个好的谷歌搜索应该能找到一些有趣的书。这可能很有趣:这可能很有趣: