Amazon s3 使用jsoup将HTML解析为S3上的拼花文件_Amazon S3_Jsoup_Parquet

Amazon s3 使用jsoup将HTML解析为S3上的拼花文件

amazon-s3

Amazon s3 使用jsoup将HTML解析为S3上的拼花文件,amazon-s3,jsoup,parquet,Amazon S3,Jsoup,Parquet,我刚刚开始使用拼花地板，我发现文档有点稀疏。我在网上订阅了Safari书籍，我看过所有包含拼花地板信息的书籍，甚至我看过的书都只包含了几段。我正在努力想从哪里开始问题我正在解析4亿个HTML文件。每个文件代表一个人（它是一份简历）。对于每个文件，将创建一个JSON对象，其中包含顶级人员数据（例如姓名、头衔、位置）和一个嵌套结构，其中包含经验、教育和技能。现在，我们的目标是将这些对象存储在拼花文件中，存储在S3上，并在上面使用Presto或一些分布式SQL查询引擎进行分析。我希望做的是解析HT

我刚刚开始使用拼花地板，我发现文档有点稀疏。我在网上订阅了Safari书籍，我看过所有包含拼花地板信息的书籍，甚至我看过的书都只包含了几段。我正在努力想从哪里开始

问题

我正在解析4亿个HTML文件。每个文件代表一个人（它是一份简历）。对于每个文件，将创建一个JSON对象，其中包含顶级人员数据（例如姓名、头衔、位置）和一个嵌套结构，其中包含经验、教育和技能。现在，我们的目标是将这些对象存储在拼花文件中，存储在S3上，并在上面使用Presto或一些分布式SQL查询引擎进行分析。我希望做的是解析HTML并将其放入拼花文件中，而不使用JSON作为中介。然而，我不是100%确定如何做到这一点，我找不到任何东西让我在这里开始。我在想，解析每个HTML文件，创建JSON对象，然后写入拼花地板文件。这样我就不必创建一堆JSON文件，然后从中创建拼花文件（省去我自己的步骤），但我甚至不知道如何编写存储在S3上的文件，或者我是否正确地考虑了所有这些

只是想在这里找到一些关于如何开始的指导。这里有关于什么样的最佳实践、如何进行的好资源，诸如此类。我想，如果人们正在使用拼花地板（似乎是这样），肯定会有一些我根本不知道的文档