C# 从pdf和word文件中提取文本

C# 从pdf和word文件中提取文本,c#,pdf,ms-word,C#,Pdf,Ms Word,如何从C#中的pdf或word文件(删除粗体、图像和其他富格文本格式媒体)中提取文本?对于pdf,您看了吗 还请检查此选项:使用Word对象模型,这是唯一可靠的方法,因为Word格式未打开,并且版本不同。PDF: 你有多种选择 pdftotext: 下载。在.zip文件中有各种命令行实用程序。一个是pdftotext(.exe)。它可以从性能良好的PDF文件中提取所有文本内容。键入pdftotext-help了解一些if命令行参数 重影脚本: 安装(v.8.71)。Ghostscript是Pos

如何从C#中的pdf或word文件(删除粗体、图像和其他富格文本格式媒体)中提取文本?

对于pdf,您看了吗


还请检查此选项:

使用Word对象模型,这是唯一可靠的方法,因为Word格式未打开,并且版本不同。

PDF: 你有多种选择

pdftotext:
下载。在.zip文件中有各种命令行实用程序。一个是
pdftotext(.exe)
。它可以从性能良好的PDF文件中提取所有文本内容。键入
pdftotext-help
了解一些if命令行参数

重影脚本:
安装(v.8.71)。Ghostscript是PostScript和PDF解释器。您也可以使用它从PDF中提取文本:

gswin32c.exe ^
 -q ^
 -sFONTPATH=c:/windows/fonts ^
 -dNODISPLAY ^
 -dSAFER ^
 -dDELAYBIND ^
 -dWRITESYSTEMDICT ^
 -dSIMPLE ^
 -f ps2ascii.ps ^
 -dFirstPage=3 ^
 -dLastPage=7 ^
 input.pdf ^
 -dQUIET 
这将把
input.pdf
第3-7页中包含的文本输出到标准输出。通过将
>/path/to/output.txt
附加到命令,可以将其重定向到文件。(检查以确保PostScript实用程序
ps2ascii.ps
存在于Ghostscript的
lib
子目录中。)


如果省略
-dSIMPLE
参数,文本输出将猜测换行符和单词间距。有关详细信息,请查看
ps2ascii.ps
文件本身中的注释。您甚至可以将该参数替换为
-dCOMPLEX
,以获取其他文本格式信息。

您可能需要查看PDFBox。下面是一个代码项目页面的链接,展示了如何在C#中使用它以及其他有用的注释


至于Word,使用Word对象模型的建议可能是最准确的。

您可以使用为索引服务设计/使用的过滤器。它们被设计用于从各种文档中提取纯文本,这对于在文档中搜索非常有用。您可以将其用于Office文件、PDF、HTML等,基本上是任何具有过滤器的文件类型。唯一的缺点是,您必须在服务器上安装这些过滤器,因此,如果您不能直接访问服务器,这可能是不可能的。有些过滤器是随Windows预装的,但有些过滤器(如PDF)必须自己安装。对于C#实现,请查看本文:

可用于从PDF文件中提取文本

图书馆可以。此外,可以使用库的API检索带有边界矩形的一个或多个字符


免责声明:我为图书馆的供应商工作。

这正是我所需要的。谢谢但是怎么办呢?没有代码示例,这是一个无用的响应。