Amazon web services 如何使带有自定义分类器的AWS Glue crawler跳过日志文件的第一行？_Amazon Web Services_Logstash Grok_Aws Glue_Aws Glue Data Catalog

Amazon web services 如何使带有自定义分类器的AWS Glue crawler跳过日志文件的第一行？

amazon-web-services

Amazon web services 如何使带有自定义分类器的AWS Glue crawler跳过日志文件的第一行？,amazon-web-services,logstash-grok,aws-glue,aws-glue-data-catalog,Amazon Web Services,Logstash Grok,Aws Glue,Aws Glue Data Catalog,我是个新手，我正在尝试让爬虫功能从一些日志文件中提取数据库表。问题是文件的第一行不同。我定义了一个自定义的Grok分类器，只要删除第一行，它就可以正常工作，但是当我使用原始日志文件时，它就会停止工作，并使用默认的glue分类器（这显然对我不起作用）。我尝试将'skip.header.line.count'=1添加到表属性中（并将爬网程序设置为不更新架构），但这也不起作用。在grok模式中有没有写“跳过第一行”的方法

我是个新手，我正在尝试让爬虫功能从一些日志文件中提取数据库表。问题是文件的第一行不同。我定义了一个自定义的Grok分类器，只要删除第一行，它就可以正常工作，但是当我使用原始日志文件时，它就会停止工作，并使用默认的glue分类器（这显然对我不起作用）。我尝试将'skip.header.line.count'=1添加到表属性中（并将爬网程序设置为不更新架构），但这也不起作用。在grok模式中有没有写“跳过第一行”的方法