我分别有tesseract ocr和hadoop。我需要整合它们

我分别有tesseract ocr和hadoop。我需要整合它们,hadoop,tesseract,hadoop-streaming,hadoop-plugins,Hadoop,Tesseract,Hadoop Streaming,Hadoop Plugins,根据我的图像处理项目。我需要的是将hadoop(并行处理器)与tesseract(图像处理到txt)集成。您可能会发现这很有用。它包含一个名为python tesseract的模块,用于OCR处理。您可以将其与Hadoop流媒体一起使用。嗨,塔里克,谢谢您的精彩文档。但是,我得到了一些错误,比如main_dummy.cpp:7和publictypes.h errorstesseract.i:13:错误:在main_dummy中找不到'publictypes.h'错误。cpp:ProcessPag

根据我的图像处理项目。我需要的是将hadoop(并行处理器)与tesseract(图像处理到txt)集成。

您可能会发现这很有用。它包含一个名为python tesseract的模块,用于OCR处理。您可以将其与Hadoop流媒体一起使用。

嗨,塔里克,谢谢您的精彩文档。但是,我得到了一些错误,比如main_dummy.cpp:7和publictypes.h errorstesseract.i:13:错误:在main_dummy中找不到'publictypes.h'错误。cpp:ProcessPagesWrapper、tesseract api、tessbaseapi、ProcessPagesFileStream、python2.6:无法打开文件'tesseract.py'导入错误:没有名为tesseract的模块