Amazon web services 如何避免在aws胶水中使用爬虫

Amazon web services 如何避免在aws胶水中使用爬虫,amazon-web-services,aws-glue,aws-glue-data-catalog,Amazon Web Services,Aws Glue,Aws Glue Data Catalog,AWS胶水爬虫有相关的成本,如何避免我们在AWS胶水爬虫 我们有没有办法避免使用爬虫并从任何其他选项推断模式,从而降低成本。您可以使用Athena在Glue catalog中创建表,但要做到这一点,您需要知道文件的模式,或者您可以从通过在Athena中运行SHOW CREATE table创建的现有表中获取DDL,然后您可以根据您的模式修改DDL语句 DDL查询在雅典娜是免费的,不收费 另一种方法是发出一个Glue create table API调用。python语法请参阅。除了bdcloud

AWS胶水爬虫有相关的成本,如何避免我们在AWS胶水爬虫


我们有没有办法避免使用爬虫并从任何其他选项推断模式,从而降低成本。

您可以使用Athena在Glue catalog中创建表,但要做到这一点,您需要知道文件的模式,或者您可以从通过在Athena中运行SHOW CREATE table创建的现有表中获取DDL,然后您可以根据您的模式修改DDL语句

DDL查询在雅典娜是免费的,不收费


另一种方法是发出一个Glue create table API调用。python语法请参阅。

除了bdcloud所说的,还可以使用CloudFormation中的“AWS::Glue::Table”资源将表添加到数据目录中

如果您有一个可以用作模板的表模式,那么实现这一点就更容易了。aws glue get table-database name-name将为您提供非常接近CloudFormation所期望的JSON


同样,您需要提前了解您的架构,但选择最适合您所使用的工作流的方法。

使用crawler不是强制性的,您可以使用spark.read读取文件,并将其加载到数据框中,然后执行printSchema以查看架构详细信息。例如,df=spark.read.loadexamples/src/main/resources/users.parquet,df.printSchema