Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/search/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Search PDF文本搜索和拆分库_Search_Pdf - Fatal编程技术网

Search PDF文本搜索和拆分库

Search PDF文本搜索和拆分库,search,pdf,Search,Pdf,我正在寻找一个服务器端PDF库(或命令行工具),它可以: 基于将多页PDF文件拆分为单个PDF文件 PDF文件内容的搜索结果 示例: 在文本中搜索“Page???”模式,并将大PDF拆分为001.PDF、002、PDF、???。pdf 服务器程序将扫描PDF,查找搜索模式,保存与模式匹配的页面,并将文件保存在磁盘中 与PHP/Ruby集成会很好。也可以使用命令行工具。它将是一个服务器端(linux或win32)批处理工具。不支持GUI/登录。i18n支持会很好,但不需要。谢谢~您可以使用

我正在寻找一个服务器端PDF库(或命令行工具),它可以:

  • 基于将多页PDF文件拆分为单个PDF文件
  • PDF文件内容的搜索结果
示例:

  • 在文本中搜索“Page???”模式,并将大PDF拆分为001.PDF、002、PDF、???。pdf
服务器程序将扫描PDF,查找搜索模式,保存与模式匹配的页面,并将文件保存在磁盘中

与PHP/Ruby集成会很好。也可以使用命令行工具。它将是一个服务器端(linux或win32)批处理工具。不支持GUI/登录。i18n支持会很好,但不需要。谢谢~

您可以使用将文件拆分为页面,然后使用pdftotext(from)将其转换为文本,并使用ruby(或grep)查找字符串。然后你就有了页面范围,可以返回以前生成的页面。

我的公司刚刚发布了一些在.NET上运行的PDF操作工具。有一个文本提取类可用于查找文本并确定如何拆分文档,还有一个非常高级的文档类可使拆分变得简单。假设您有一个指向源PDF的流,以及一个描述每个拆分起始页的有序列表,那么生成拆分文件的代码如下所示:

public void SplitPdf(Stream stm,List pageStarts,string outputDirectory)
{
PdfDocument mainDoc=新PdfDocument(stm);
int lastPage=mainDoc.Pages.Count-1;
对于(int i=0;i结束页面)抛出新的ArgumentException(“列表顺序不正确”,“页面开始”);
PdfDocument splitDoc=新PdfDocument();

对于(j=startPage;jPDFBox是一个Java库,但它也有一些命令行工具:

PDFBox可以提取文本,也可以重建/拆分PDF