Search PDF文本搜索和拆分库_Search_Pdf

Search PDF文本搜索和拆分库

search pdf

Search PDF文本搜索和拆分库,search,pdf,Search,Pdf,我正在寻找一个服务器端PDF库（或命令行工具），它可以：基于将多页PDF文件拆分为单个PDF文件 PDF文件内容的搜索结果示例：在文本中搜索“Page？？？”模式，并将大PDF拆分为001.PDF、002、PDF、？？？。pdf 服务器程序将扫描PDF，查找搜索模式，保存与模式匹配的页面，并将文件保存在磁盘中与PHP/Ruby集成会很好。也可以使用命令行工具。它将是一个服务器端（linux或win32）批处理工具。不支持GUI/登录。i18n支持会很好，但不需要。谢谢~您可以使用

我正在寻找一个服务器端PDF库（或命令行工具），它可以：

基于将多页PDF文件拆分为单个PDF文件
PDF文件内容的搜索结果

示例：

在文本中搜索“Page？？？”模式，并将大PDF拆分为001.PDF、002、PDF、？？？。pdf

服务器程序将扫描PDF，查找搜索模式，保存与模式匹配的页面，并将文件保存在磁盘中

与PHP/Ruby集成会很好。也可以使用命令行工具。它将是一个服务器端（linux或win32）批处理工具。不支持GUI/登录。i18n支持会很好，但不需要。谢谢~

您可以使用将文件拆分为页面，然后使用pdftotext（from）将其转换为文本，并使用ruby（或grep）查找字符串。然后你就有了页面范围，可以返回以前生成的页面。

我的公司刚刚发布了一些在.NET上运行的PDF操作工具。有一个文本提取类可用于查找文本并确定如何拆分文档，还有一个非常高级的文档类可使拆分变得简单。假设您有一个指向源PDF的流，以及一个描述每个拆分起始页的有序列表，那么生成拆分文件的代码如下所示：

public void SplitPdf（Stream stm，List pageStarts，string outputDirectory）
{
PdfDocument mainDoc=新PdfDocument（stm）；
int lastPage=mainDoc.Pages.Count-1；
对于（int i=0；i结束页面）抛出新的ArgumentException（“列表顺序不正确”，“页面开始”）；
PdfDocument splitDoc=新PdfDocument（）；
对于（j=startPage；jPDFBox是一个Java库，但它也有一些命令行工具：

PDFBox可以提取文本，也可以重建/拆分PDF