Artificial intelligence 我能把字典数字化吗?

Artificial intelligence 我能把字典数字化吗?,artificial-intelligence,nlp,computer-vision,ocr,Artificial Intelligence,Nlp,Computer Vision,Ocr,我发现了一个PDF格式的公共域拉丁葡萄牙语词典,我想将其转换为纯文本,解析并用作程序的数据库。然而,经过一些测试,我有点怀疑。请看一下和。我是否有希望通过某种方法达到99%以上的准确率?我想到了reCaptcha的数据库,但我猜这是谷歌的财产,不是吗 谢谢 另一种方法是使用免费提供的字典文件,如或 编辑:我刚刚发现这是一本拉丁/葡萄牙语词典,所以WordNet显然不好。这本词典本身的字符质量很低。你必须进行认真的训练,即使如此,你也必须通过训练进行纠正。根据本文(),tesseract可能更适合

我发现了一个PDF格式的公共域拉丁葡萄牙语词典,我想将其转换为纯文本,解析并用作程序的数据库。然而,经过一些测试,我有点怀疑。请看一下和。我是否有希望通过某种方法达到99%以上的准确率?我想到了reCaptcha的数据库,但我猜这是谷歌的财产,不是吗


谢谢

另一种方法是使用免费提供的字典文件,如


编辑:我刚刚发现这是一本拉丁/葡萄牙语词典,所以WordNet显然不好。

这本词典本身的字符质量很低。你必须进行认真的训练,即使如此,你也必须通过训练进行纠正。根据本文(),tesseract可能更适合您。尽管最重要的是更干净的扫描。你有什么理由希望扫描这本词典,而不仅仅是使用WordNet这样的现有资源吗?因为这是一本拉丁葡萄牙语词典,而不是英语词典!tesseract的输出虽然仍然不完美,但确实要好得多!