C# 从pdf和word文件中提取文本_C#_Pdf_Ms Word

C# 从pdf和word文件中提取文本

c# pdf ms-word

C# 从pdf和word文件中提取文本,c#,pdf,ms-word,C#,Pdf,Ms Word,如何从C#中的pdf或word文件（删除粗体、图像和其他富格文本格式媒体）中提取文本？对于pdf，您看了吗还请检查此选项：使用Word对象模型，这是唯一可靠的方法，因为Word格式未打开，并且版本不同。PDF: 你有多种选择 pdftotext: 下载。在.zip文件中有各种命令行实用程序。一个是pdftotext（.exe）。它可以从性能良好的PDF文件中提取所有文本内容。键入pdftotext-help了解一些if命令行参数重影脚本：安装（v.8.71）。Ghostscript是Pos

如何从C#中的pdf或word文件（删除粗体、图像和其他富格文本格式媒体）中提取文本？

对于pdf，您看了吗

还请检查此选项：

使用Word对象模型，这是唯一可靠的方法，因为Word格式未打开，并且版本不同。

PDF: 你有多种选择

pdftotext:
下载。在.zip文件中有各种命令行实用程序。一个是

pdftotext（.exe）

。它可以从性能良好的PDF文件中提取所有文本内容。键入

pdftotext-help

了解一些if命令行参数

重影脚本：
安装（v.8.71）。Ghostscript是PostScript和PDF解释器。您也可以使用它从PDF中提取文本：

gswin32c.exe ^
 -q ^
 -sFONTPATH=c:/windows/fonts ^
 -dNODISPLAY ^
 -dSAFER ^
 -dDELAYBIND ^
 -dWRITESYSTEMDICT ^
 -dSIMPLE ^
 -f ps2ascii.ps ^
 -dFirstPage=3 ^
 -dLastPage=7 ^
 input.pdf ^
 -dQUIET

这将把

input.pdf

第3-7页中包含的文本输出到标准输出。通过将

>/path/to/output.txt

附加到命令，可以将其重定向到文件。（检查以确保PostScript实用程序

ps2ascii.ps

存在于Ghostscript的

lib

子目录中。）

如果省略

-dSIMPLE

参数，文本输出将猜测换行符和单词间距。有关详细信息，请查看

ps2ascii.ps

文件本身中的注释。您甚至可以将该参数替换为

-dCOMPLEX

，以获取其他文本格式信息。

您可能需要查看PDFBox。下面是一个代码项目页面的链接，展示了如何在C#中使用它以及其他有用的注释

至于Word，使用Word对象模型的建议可能是最准确的。

您可以使用为索引服务设计/使用的过滤器。它们被设计用于从各种文档中提取纯文本，这对于在文档中搜索非常有用。您可以将其用于Office文件、PDF、HTML等，基本上是任何具有过滤器的文件类型。唯一的缺点是，您必须在服务器上安装这些过滤器，因此，如果您不能直接访问服务器，这可能是不可能的。有些过滤器是随Windows预装的，但有些过滤器（如PDF）必须自己安装。对于C#实现，请查看本文：

可用于从PDF文件中提取文本

图书馆可以。此外，可以使用库的API检索带有边界矩形的一个或多个字符

免责声明：我为图书馆的供应商工作。

这正是我所需要的。谢谢但是怎么办呢？没有代码示例，这是一个无用的响应。