Vb.net 逐行阅读PDF-iTextSharp
我不确定我的代码出了什么问题。它读取PDF文件,并获取所有文本,但每个项目都组合成一个字符串,没有任何分隔符 样本: “住房:2个 卧室:3间 浴室4“ 将被解读为“房屋:2个卫生间:3个卫生间4” 我把所有的例子都找遍了,都没有用。我也尝试过LocationTextExtractionStrategy,但没有效果。我尝试过使用.split方法,但没有任何帮助Vb.net 逐行阅读PDF-iTextSharp,vb.net,itext,Vb.net,Itext,我不确定我的代码出了什么问题。它读取PDF文件,并获取所有文本,但每个项目都组合成一个字符串,没有任何分隔符 样本: “住房:2个 卧室:3间 浴室4“ 将被解读为“房屋:2个卫生间:3个卫生间4” 我把所有的例子都找遍了,都没有用。我也尝试过LocationTextExtractionStrategy,但没有效果。我尝试过使用.split方法,但没有任何帮助 Public Shared Function ParseAllPdfText(ByVal filepath As String)
Public Shared Function ParseAllPdfText(ByVal filepath As String)
Dim sbtxt, currenttext As String
sbtxt = ""
Try
Using reader As New PdfReader(filepath)
For intPages As Integer = 1 To reader.NumberOfPages
currenttext = PdfTextExtractor.GetTextFromPage(reader, intPages, New LocationTextExtractionStrategy())
currenttext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(currenttext)))
sbtxt = sbtxt & currenttext & vbcrlf
Next
End Using
Catch ex As Exception
MsgBox(" There was an error extracting text from the file: " & ex.Message, vbInformation, "Error Extracting Text")
End Try
Return sbtxt
没关系,这是我的疏忽。我意识到这些行是由Chr(10)分隔的。Chr(10)不会在文本框中创建新行,这是我输出字符串的地方。但是,它会在MsgBox中创建一个新行。因此,如果其他任何人遇到此问题,则chr(10)是分隔符。:-) 你能分享有问题的pdf吗?此外,您打算用
编码
杂耍线实现什么?