C# ITextsharp PDFParser将文本提取到文本框
我想将文件从PDF提取到asp.net中的文本框中,我已经从 我已经成功地从我的PDF中提取文本,但是结果首先导出到.txt文件,结果没有任何行,单词之间也没有任何空格 如果这是PDF文本的示例C# ITextsharp PDFParser将文本提取到文本框,c#,asp.net,itextsharp,C#,Asp.net,Itextsharp,我想将文件从PDF提取到asp.net中的文本框中,我已经从 我已经成功地从我的PDF中提取文本,但是结果首先导出到.txt文件,结果没有任何行,单词之间也没有任何空格 如果这是PDF文本的示例 Hello World This is the word ----------------------------------------------- This is word too End of Hello World 结果是这样的 HelloWorld这是一个单词也是一个单词 我应该怎么做才能
Hello World
This is the word ----------------------------------------------- This is word too
End of Hello World
结果是这样的
HelloWorld这是一个单词也是一个单词
我应该怎么做才能在每个单词之间留一个空格,并在每行中添加新行
在这里,我还看到了以下代码:
int totalLen = 68;
float charUnit = ((float)totalLen) / (float)reader.NumberOfPages;
int totalWritten = 0;
float curUnit = 0;
它有什么用
编辑:
在寻找了更多之后,我在
我只需要将我的itextsharp.dll更新到较新的版本(我使用的是5.4.4.0版),并添加了类似于注释所述的函数,现在结果很好,就像我所希望的那样PDFParser中似乎出现了某种Trim()函数。 除此之外,在ExtractTextFromPDFBytes方法中,它正在检查的换行符不正确,它不应该是“TD”,“TD”:
检查iTextSharp.text.Chunk.NEWLINE谢谢你的答案,在你发布答案之前已经找到了解决方案。我需要做的就是将我的itextsharp.dll更新到新版本,并使用新函数,就像您在这里找到的注释一样。您最初发现的项目采用了一种非常简单的文本提取方法。iTextSharp自己的实现要先进得多。