C# 获取PDF格式的所有单词+；他们的位置没有互操作_C#_Parsing_Pdf_Mono

C# 获取PDF格式的所有单词+；他们的位置没有互操作

c# parsing pdf mono

C# 获取PDF格式的所有单词+；他们的位置没有互操作,c#,parsing,pdf,mono,C#,Parsing,Pdf,Mono,我需要用C#代码解析一个PDF，然后从中提取每个单词，再加上该单词在文档中的位置。我无法使用interop，因为它将在Mono上运行感谢您的建议你可以试试PDFBox。我相信在下载包@的构建脚本中可以选择将源代码构建到.NET DLL中。它利用IKVM（用于.NET Framework和Mono的Java语言的实现）为.NET Framework创建PDF库您可以使用PDFBox将PDF转换为文本并获取x/y坐标。已经用Java@完成了一个示例。也许可以在.NET版本中完成。但是，我不确定

我需要用C#代码解析一个PDF，然后从中提取每个单词，再加上该单词在文档中的位置。我无法使用interop，因为它将在Mono上运行

感谢您的建议

你可以试试PDFBox。我相信在下载包@的构建脚本中可以选择将源代码构建到.NET DLL中。它利用IKVM（用于.NET Framework和Mono的Java语言的实现）为.NET Framework创建PDF库

您可以使用PDFBox将PDF转换为文本并获取x/y坐标。已经用Java@完成了一个示例。也许可以在.NET版本中完成。但是，我不确定解析pdf时丢失格式是否会产生一些不准确的坐标。

您应该阅读此线程，换句话说，您需要的不是简单的请求。