使用iTextSharp问题将PDF转换为.txt_Pdf_Powershell_Text_Itextsharp

使用iTextSharp问题将PDF转换为.txt

pdf powershell text

使用iTextSharp问题将PDF转换为.txt,pdf,powershell,text,itextsharp,Pdf,Powershell,Text,Itextsharp,我终于得到了一个作为PowerShell模块加载的C#项目，并且能够将PDF转换成文本我的一些PDF似乎转换得很好，其他的在最后被切断，其中一些只是简单地给我这样的输出： !nn! Q9!r ! !! -;7!! H* Q0-.(;5!!n #n%-,-Bn !rn-;7!H+ (-;7 ,-;7 ,-;79 !-;7nnn;,- n-n n>-rn n!!r n+*, ,),+I-.n @55= !8 ( )% rr-;7 Q!n-;7 n!Q !!n F3Q02 !8nH @*825

我终于得到了一个作为PowerShell模块加载的C#项目，并且能够将PDF转换成文本

我的一些PDF似乎转换得很好，其他的在最后被切断，其中一些只是简单地给我这样的输出：

!nn!
Q9!r
!
!!
-;7!!
H*
Q0-.(;5!!n
#n%-,-Bn
!rn-;7!H+
(-;7
,-;7
,-;79
!-;7nnn;,-
n-n
n>-rn
n!!r
n+*,
,),+I-.n
@55=
!8
(
)%
rr-;7
Q!n-;7
n!Q
!!n
F3Q02
!8nH
@*825
-n-;7
-;7nrQ
&n!!-;7C4-;7
Kn>B)I!!!I
$rn==.=!
r*.//
@5>8636nKnn

我已经检查了我正在测试的PDF文件的属性，但是我找不到任何可以作为PDF输出上述胡言乱语的原因的东西

有人能告诉我还有什么需要查找和/或更改的吗？

请提供用于提取文本的代码。此外，并非所有PDF都按照您读取文本的顺序存储文本，也并非所有PDF都将文本信息存储为真实文本。例如，某些设计工具（如Adobe Illustrator）允许您将文本分解为向量点（转换为大纲），这将破坏文本信息，因此PDF看起来只是由文本组成的。我不能对此负责，但这里有（Convertfrom PDF cmdlet继承自PDFParser类）：iTextSharp实际上附带了一些非常智能的PDF文本转换功能。我建议您调查这些问题，而不是依赖CodeProject中的代码，后者似乎采取了更简单但容易出错的路线。先看看这个