Search PDF文本搜索和拆分库
我正在寻找一个服务器端PDF库(或命令行工具),它可以:Search PDF文本搜索和拆分库,search,pdf,Search,Pdf,我正在寻找一个服务器端PDF库(或命令行工具),它可以: 基于将多页PDF文件拆分为单个PDF文件 PDF文件内容的搜索结果 示例: 在文本中搜索“Page???”模式,并将大PDF拆分为001.PDF、002、PDF、???。pdf 服务器程序将扫描PDF,查找搜索模式,保存与模式匹配的页面,并将文件保存在磁盘中 与PHP/Ruby集成会很好。也可以使用命令行工具。它将是一个服务器端(linux或win32)批处理工具。不支持GUI/登录。i18n支持会很好,但不需要。谢谢~您可以使用
- 基于将多页PDF文件拆分为单个PDF文件
- PDF文件内容的搜索结果
- 在文本中搜索“Page???”模式,并将大PDF拆分为001.PDF、002、PDF、???。pdf
public void SplitPdf(Stream stm,List pageStarts,string outputDirectory)
{
PdfDocument mainDoc=新PdfDocument(stm);
int lastPage=mainDoc.Pages.Count-1;
对于(int i=0;i结束页面)抛出新的ArgumentException(“列表顺序不正确”,“页面开始”);
PdfDocument splitDoc=新PdfDocument();
对于(j=startPage;jPDFBox是一个Java库,但它也有一些命令行工具:
PDFBox可以提取文本,也可以重建/拆分PDF