C# c pdf itextsharp文本在提取时分散和重复_C#_Pdf

C# c pdf itextsharp文本在提取时分散和重复

c# pdf

C# c pdf itextsharp文本在提取时分散和重复,c#,pdf,C#,Pdf,使用itextsharp，我需要在c应用程序中从pdf中提取文本。当我试图提取一些pdf文件时，一些单词会分散并重复，例如堆栈溢出-st ta ac ck k o OVE er rf fl LOW w w。有人可以建议如何使这一点完美，或建议我纠正这一点。我已经附上了上述案件的样本图像。我能猜一下导致这种情况的文本在PDF文件中是粗体的吗？一种在PostScript和PDF中使文本看起来粗体的常见方法是一种非常糟糕的方法，但是。。。就是渲染相同的字符两次，文本的位置稍微发生平移如果这确实是造

使用itextsharp，我需要在c应用程序中从pdf中提取文本。当我试图提取一些pdf文件时，一些单词会分散并重复，例如堆栈溢出-st ta ac ck k o OVE er rf fl LOW w w。有人可以建议如何使这一点完美，或建议我纠正这一点。我已经附上了上述案件的样本图像。

我能猜一下导致这种情况的文本在PDF文件中是粗体的吗？一种在PostScript和PDF中使文本看起来粗体的常见方法是一种非常糟糕的方法，但是。。。就是渲染相同的字符两次，文本的位置稍微发生平移

如果这确实是造成这种情况的原因，你唯一的解决办法可能是计算每个字符的位置，并丢弃那些相等且非常接近的字符。

请不要透露stackoverflow上任何个人的信息！我猜穷人的胆量也是如此@ShankarManickavasagam请提供样本PDF以供检查。如果是这种情况，可以适当地扩展该策略，以识别它的一些常见模式