Hadoop Apache Drill-在文件存储插件中使用多个分隔符？_Hadoop_Apache Drill

Hadoop Apache Drill-在文件存储插件中使用多个分隔符？

hadoop

Hadoop Apache Drill-在文件存储插件中使用多个分隔符？,hadoop,apache-drill,Hadoop,Apache Drill,我的日志类似于以下内容： value1 value2 "value 3 with spaces" value4 使用： "formats": { "csv": { "type": "text", "delimiter": " " } } 对于存储插件，通过“”进行定界将提供以下列： columns[0] | columns[1] | columns[2] | columns[3] | columns[5] | columns[6] | colu

我的日志类似于以下内容：

value1 value2 "value 3 with spaces" value4

使用：

  "formats": {
    "csv": {
      "type": "text",
      "delimiter": " "
    }
  }

对于存储插件，通过“”进行定界将提供以下列：

columns[0] | columns[1] | columns[2] | columns[3] | columns[5] | columns[6] | columns[7]
value1     | value2     | value      | 3          | with       | spaces     | value4

我想要的是：

columns[0] | columns[1] | columns[2]              | columns[3] 
value1     | value2     | value 3 with spaces     | value4

据我所知，在演练中无法跳过分隔符。但是，如果变量3是唯一一个介于“”之间的变量，我可以想到的解决方法是：

构造第一个查询，使列[3]始终是最后一个，例如

从dfs中选择列[0]、列[1]、列[2]、列[4]、列[3]。默认值为/path/to/your/file

使用CONCATENATE（）命令在单独的列中构建变量

另一种解决方法是在让Drill读取文件之前更改文件中的默认分隔符。根据您从何处摄取数据，这可能是可行的，也可能是不可行的

祝你好运，如果你想了解更多关于Drill的内容，一定要查看MapR在Drill上的社区页面，其中的代码示例可能会有所帮助：

据我所知，没有办法跳过Drill中的分隔符。但是，如果变量3是唯一一个介于“”之间的变量，我可以想到的解决方法是：

构造第一个查询，使列[3]始终是最后一个，例如

从dfs中选择列[0]、列[1]、列[2]、列[4]、列[3]。默认值为/path/to/your/file

使用CONCATENATE（）命令在单独的列中构建变量

另一种解决方法是在让Drill读取文件之前更改文件中的默认分隔符。根据您从何处摄取数据，这可能是可行的，也可能是不可行的

祝你好运，如果你想了解更多关于Drill的内容，一定要查看MapR的Drill社区页面，其中有一些代码示例可能会有所帮助：

有一个功能很快就会发布（我的猜测是12月），应该适合你：@catpaws这在1.3中解决了吗？抱歉，它不在1.3中。DRILL-3423的目标是1.4。有一个功能很快就会发布（我的猜测是12月），应该适合你：@catpaws这个问题在1.3中解决了吗？对不起，1.3中没有。DRILL-3423的目标是1.4。