使用iTextSharp问题将PDF转换为.txt

使用iTextSharp问题将PDF转换为.txt,pdf,powershell,text,itextsharp,Pdf,Powershell,Text,Itextsharp,我终于得到了一个作为PowerShell模块加载的C#项目,并且能够将PDF转换成文本 我的一些PDF似乎转换得很好,其他的在最后被切断,其中一些只是简单地给我这样的输出: !nn! Q9!r ! !! -;7!! H* Q0-.(;5!!n #n%-,-Bn !rn-;7!H+ (-;7 ,-;7 ,-;79 !-;7nnn;,- n-n n>-rn n!!r n+*, ,),+I-.n @55= !8 ( )% rr-;7 Q!n-;7 n!Q !!n F3Q02 !8nH @*825

我终于得到了一个作为PowerShell模块加载的C#项目,并且能够将PDF转换成文本

我的一些PDF似乎转换得很好,其他的在最后被切断,其中一些只是简单地给我这样的输出:

!nn!
Q9!r
!
!!
-;7!!
H*
Q0-.(;5!!n
#n%-,-Bn
!rn-;7!H+
(-;7
,-;7
,-;79
!-;7nnn;,-
n-n
n>-rn
n!!r
n+*,
,),+I-.n
@55=
!8
(
)%
rr-;7
Q!n-;7
n!Q
!!n
F3Q02
!8nH
@*825
-n-;7
-;7nrQ
&n!!-;7C4-;7
Kn>B)I!!!I
$rn==.=!
r*.//
@5>8636nKnn
我已经检查了我正在测试的PDF文件的属性,但是我找不到任何可以作为PDF输出上述胡言乱语的原因的东西


有人能告诉我还有什么需要查找和/或更改的吗?

请提供用于提取文本的代码。此外,并非所有PDF都按照您读取文本的顺序存储文本,也并非所有PDF都将文本信息存储为真实文本。例如,某些设计工具(如Adobe Illustrator)允许您将文本分解为向量点(转换为大纲),这将破坏文本信息,因此PDF看起来只是由文本组成的。我不能对此负责,但这里有(Convertfrom PDF cmdlet继承自PDFParser类):iTextSharp实际上附带了一些非常智能的PDF文本转换功能。我建议您调查这些问题,而不是依赖CodeProject中的代码,后者似乎采取了更简单但容易出错的路线。先看看这个