Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/csharp/313.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
C#搜索PDF_C#_Pdf_Search - Fatal编程技术网

C#搜索PDF

C#搜索PDF,c#,pdf,search,C#,Pdf,Search,我正在使用iTextSharp从pdf中获取内容。我想让用户搜索PDF,就像在任何搜索引擎上一样。搜索应返回最相关的结果。我编写了一个库,对文档执行TF-IDF算法以返回相关结果。虽然这是可行的,但我觉得我可能正在重新发明轮子 这个用户应该能够搜索超过50000个PDF。所以有很多。我不想将PDF的全部内容存储在我的数据库中,因为我觉得这会非常昂贵。为了缓解这种情况,我编写了我的库,以便它在计算TF-IDF时接受频率分布。这使我能够在将PDF添加到系统时读取它,而不是每次执行搜索时读取它 是否存

我正在使用
iTextSharp
从pdf中获取内容。我想让用户搜索PDF,就像在任何搜索引擎上一样。搜索应返回最相关的结果。我编写了一个库,对文档执行TF-IDF算法以返回相关结果。虽然这是可行的,但我觉得我可能正在重新发明轮子

这个用户应该能够搜索超过50000个PDF。所以有很多。我不想将PDF的全部内容存储在我的数据库中,因为我觉得这会非常昂贵。为了缓解这种情况,我编写了我的库,以便它在计算TF-IDF时接受频率分布。这使我能够在将PDF添加到系统时读取它,而不是每次执行搜索时读取它


是否存在已经做过这类事情的库

Lucene.NET将满足您的需要


还有一些像我们的“SearchUnit”这样的商业软件,Lucene.NET可以满足您的需要

还有像我们的“搜索单位”这样的商业单位