Text 如何使用ApacheTika/Tesseract解析表单?

Text 如何使用ApacheTika/Tesseract解析表单?,text,ocr,tesseract,image-recognition,apache-tika,Text,Ocr,Tesseract,Image Recognition,Apache Tika,我有一份三页的文件。它有一些结构(N个字段,一些是手写文本,一些是数字)。我知道每个领域的名称。如何获取字段值?我认为您可能需要使用Apache PDFBox获取所有表单字段,当Apache Tika为文档返回友好且一致的HTML时,太多的信息将丢失/简化

我有一份三页的文件。它有一些结构(N个字段,一些是手写文本,一些是数字)。我知道每个领域的名称。如何获取字段值?

我认为您可能需要使用Apache PDFBox获取所有表单字段,当Apache Tika为文档返回友好且一致的HTML时,太多的信息将丢失/简化