C# 获取PDF格式的所有单词+;他们的位置没有互操作

C# 获取PDF格式的所有单词+;他们的位置没有互操作,c#,parsing,pdf,mono,C#,Parsing,Pdf,Mono,我需要用C#代码解析一个PDF,然后从中提取每个单词,再加上该单词在文档中的位置。我无法使用interop,因为它将在Mono上运行 感谢您的建议 你可以试试PDFBox。我相信在下载包@的构建脚本中可以选择将源代码构建到.NET DLL中。它利用IKVM(用于.NET Framework和Mono的Java语言的实现)为.NET Framework创建PDF库 您可以使用PDFBox将PDF转换为文本并获取x/y坐标。已经用Java@完成了一个示例。也许可以在.NET版本中完成。但是,我不确定

我需要用C#代码解析一个PDF,然后从中提取每个单词,再加上该单词在文档中的位置。我无法使用interop,因为它将在Mono上运行


感谢您的建议

你可以试试PDFBox。我相信在下载包@的构建脚本中可以选择将源代码构建到.NET DLL中。它利用IKVM(用于.NET Framework和Mono的Java语言的实现)为.NET Framework创建PDF库

您可以使用PDFBox将PDF转换为文本并获取x/y坐标。已经用Java@完成了一个示例。也许可以在.NET版本中完成。但是,我不确定解析pdf时丢失格式是否会产生一些不准确的坐标。

您应该阅读此线程,换句话说,您需要的不是简单的请求。