如何使用aws textract服务和.net从文档中导出CSV格式的表(PDF/Image)
我试图使用C#/.NET从AWS textract服务中使用DetectDocument(异步)从PDF文件中提取表和数据 我在数据提取方面取得了成功,但无法理解如何使用AnalyzeDocument提取PDF格式的表并导出CSV文件 阅读AWS文档,发现CSV提取使用Python而不是.NET。 参考链接:-如何使用aws textract服务和.net从文档中导出CSV格式的表(PDF/Image),.net,amazon-web-services,amazon-textract,.net,Amazon Web Services,Amazon Textract,我试图使用C#/.NET从AWS textract服务中使用DetectDocument(异步)从PDF文件中提取表和数据 我在数据提取方面取得了成功,但无法理解如何使用AnalyzeDocument提取PDF格式的表并导出CSV文件 阅读AWS文档,发现CSV提取使用Python而不是.NET。 参考链接:- 尝试查看Python代码并复制.NET,但没有成功。我们可以使用这段代码,在由textract的GetDocumentTextAnalysis()返回的块中循环关系,并获取链接到它的所有
尝试查看Python代码并复制.NET,但没有成功。我们可以使用这段代码,在由textract的GetDocumentTextAnalysis()返回的块中循环关系,并获取链接到它的所有子节点
var relationships = block.Relationships;
if(relationships != null && relationships.Count > 0) {
relationships.ForEach(r => {
if(r.Type == "CHILD") {
r.Ids.ForEach(id => {
var cell = new Cell(blocks.Find(b => b.Id == id), blocks);
if(cell.RowIndex > ri) {
this.Rows.Add(row);
row = new Row();
ri = cell.RowIndex;
}
row.Cells.Add(cell);
});
if(row != null && row.Cells.Count > 0)
this.Rows.Add(row);
}
});
}
参考-请参考底部的链接了解代码:-
我们可以使用这段代码,在从textract返回的GetDocumentTextAnalysis()返回的块中循环关系,并获取链接到它的所有子节点
var relationships = block.Relationships;
if(relationships != null && relationships.Count > 0) {
relationships.ForEach(r => {
if(r.Type == "CHILD") {
r.Ids.ForEach(id => {
var cell = new Cell(blocks.Find(b => b.Id == id), blocks);
if(cell.RowIndex > ri) {
this.Rows.Add(row);
row = new Row();
ri = cell.RowIndex;
}
row.Cells.Add(cell);
});
if(row != null && row.Cells.Count > 0)
this.Rows.Add(row);
}
});
}
参考-请参考底部的链接了解代码:-
您可以在.net中找到textract集成代码的地方共享参考URL吗。我在谷歌上找不到。有什么解决办法吗?我正在尝试从python到节点做同样的事情。@Varinder-我阅读了文档并进行了集成,但您可以查看此链接,它会使您的工作变得更简单-@ChiKaLiO-我可以在这里获得python示例代码-@ChiKaLiO,您还可以参考Python和Java中的所有代码示例。您可以共享在.net中找到textract集成代码的参考URL吗。我在谷歌上找不到。有什么解决办法吗?我正在尝试从python到节点做同样的事情。@Varinder-我阅读了文档并进行了集成,但是您可以查看此链接,它会使您的工作变得更简单-@ChiKaLiO-我可以在这里获得python示例代码-@ChiKaLiO,您还可以参考python和Java中的所有代码示例。