C# c pdf itextsharp文本在提取时分散和重复
使用itextsharp,我需要在c应用程序中从pdf中提取文本。当我试图提取一些pdf文件时,一些单词会分散并重复,例如堆栈溢出-st ta ac ck k o OVE er rf fl LOW w w。有人可以建议如何使这一点完美,或建议我纠正这一点。我已经附上了上述案件的样本图像。C# c pdf itextsharp文本在提取时分散和重复,c#,pdf,C#,Pdf,使用itextsharp,我需要在c应用程序中从pdf中提取文本。当我试图提取一些pdf文件时,一些单词会分散并重复,例如堆栈溢出-st ta ac ck k o OVE er rf fl LOW w w。有人可以建议如何使这一点完美,或建议我纠正这一点。我已经附上了上述案件的样本图像。 我能猜一下导致这种情况的文本在PDF文件中是粗体的吗?一种在PostScript和PDF中使文本看起来粗体的常见方法是一种非常糟糕的方法,但是。。。就是渲染相同的字符两次,文本的位置稍微发生平移 如果这确实是造
我能猜一下导致这种情况的文本在PDF文件中是粗体的吗?一种在PostScript和PDF中使文本看起来粗体的常见方法是一种非常糟糕的方法,但是。。。就是渲染相同的字符两次,文本的位置稍微发生平移
如果这确实是造成这种情况的原因,你唯一的解决办法可能是计算每个字符的位置,并丢弃那些相等且非常接近的字符。请不要透露stackoverflow上任何个人的信息!我猜穷人的胆量也是如此@ShankarManickavasagam请提供样本PDF以供检查。如果是这种情况,可以适当地扩展该策略,以识别它的一些常见模式