Amazon web services 如何避免在aws胶水中使用爬虫_Amazon Web Services_Aws Glue_Aws Glue Data Catalog

Amazon web services 如何避免在aws胶水中使用爬虫

amazon-web-services

Amazon web services 如何避免在aws胶水中使用爬虫,amazon-web-services,aws-glue,aws-glue-data-catalog,Amazon Web Services,Aws Glue,Aws Glue Data Catalog,AWS胶水爬虫有相关的成本，如何避免我们在AWS胶水爬虫我们有没有办法避免使用爬虫并从任何其他选项推断模式，从而降低成本。您可以使用Athena在Glue catalog中创建表，但要做到这一点，您需要知道文件的模式，或者您可以从通过在Athena中运行SHOW CREATE table创建的现有表中获取DDL，然后您可以根据您的模式修改DDL语句 DDL查询在雅典娜是免费的，不收费另一种方法是发出一个Glue create table API调用。python语法请参阅。除了bdcloud

AWS胶水爬虫有相关的成本，如何避免我们在AWS胶水爬虫

我们有没有办法避免使用爬虫并从任何其他选项推断模式，从而降低成本。

您可以使用Athena在Glue catalog中创建表，但要做到这一点，您需要知道文件的模式，或者您可以从通过在Athena中运行SHOW CREATE table创建的现有表中获取DDL，然后您可以根据您的模式修改DDL语句

DDL查询在雅典娜是免费的，不收费

另一种方法是发出一个Glue create table API调用。python语法请参阅。

除了bdcloud所说的，还可以使用CloudFormation中的“AWS:：Glue:：Table”资源将表添加到数据目录中

如果您有一个可以用作模板的表模式，那么实现这一点就更容易了。aws glue get table-database name-name将为您提供非常接近CloudFormation所期望的JSON

同样，您需要提前了解您的架构，但选择最适合您所使用的工作流的方法。

使用crawler不是强制性的，您可以使用spark.read读取文件，并将其加载到数据框中，然后执行printSchema以查看架构详细信息。例如，df=spark.read.loadexamples/src/main/resources/users.parquet，df.printSchema