Amazon s3 使用jsoup将HTML解析为S3上的拼花文件

Amazon s3 使用jsoup将HTML解析为S3上的拼花文件,amazon-s3,jsoup,parquet,Amazon S3,Jsoup,Parquet,我刚刚开始使用拼花地板,我发现文档有点稀疏。我在网上订阅了Safari书籍,我看过所有包含拼花地板信息的书籍,甚至我看过的书都只包含了几段。我正在努力想从哪里开始 问题 我正在解析4亿个HTML文件。每个文件代表一个人(它是一份简历)。对于每个文件,将创建一个JSON对象,其中包含顶级人员数据(例如姓名、头衔、位置)和一个嵌套结构,其中包含经验、教育和技能。现在,我们的目标是将这些对象存储在拼花文件中,存储在S3上,并在上面使用Presto或一些分布式SQL查询引擎进行分析。我希望做的是解析HT

我刚刚开始使用拼花地板,我发现文档有点稀疏。我在网上订阅了Safari书籍,我看过所有包含拼花地板信息的书籍,甚至我看过的书都只包含了几段。我正在努力想从哪里开始

问题

我正在解析4亿个HTML文件。每个文件代表一个人(它是一份简历)。对于每个文件,将创建一个JSON对象,其中包含顶级人员数据(例如姓名、头衔、位置)和一个嵌套结构,其中包含经验、教育和技能。现在,我们的目标是将这些对象存储在拼花文件中,存储在S3上,并在上面使用Presto或一些分布式SQL查询引擎进行分析。我希望做的是解析HTML并将其放入拼花文件中,而不使用JSON作为中介。然而,我不是100%确定如何做到这一点,我找不到任何东西让我在这里开始。我在想,解析每个HTML文件,创建JSON对象,然后写入拼花地板文件。这样我就不必创建一堆JSON文件,然后从中创建拼花文件(省去我自己的步骤),但我甚至不知道如何编写存储在S3上的文件,或者我是否正确地考虑了所有这些

只是想在这里找到一些关于如何开始的指导。这里有关于什么样的最佳实践、如何进行的好资源,诸如此类。我想,如果人们正在使用拼花地板(似乎是这样),肯定会有一些我根本不知道的文档