Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/364.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java Google Dataflow/Dataprep Shuffle键太大(无效的\u参数)_Java_Tableau Api_Google Cloud Dataflow_Google Cloud Dataprep - Fatal编程技术网

Java Google Dataflow/Dataprep Shuffle键太大(无效的\u参数)

Java Google Dataflow/Dataprep Shuffle键太大(无效的\u参数),java,tableau-api,google-cloud-dataflow,google-cloud-dataprep,Java,Tableau Api,Google Cloud Dataflow,Google Cloud Dataprep,我已经试过多次运行此作业,每次都是在遇到许多与配额相关的警告(并且每次都请求增加配额)后运行,但最终总是失败并显示此错误消息,我认为这是由于我的数据集太大造成的,但我不确定。Dataprep应该能够处理任何规模的ETL作业,而这甚至不是一个很大的作业。无论如何,这是错误消息,如有任何帮助,将不胜感激: java.lang.RuntimeException: org.apache.beam.sdk.util.UserCodeException: java.lang.RuntimeException

我已经试过多次运行此作业,每次都是在遇到许多与配额相关的警告(并且每次都请求增加配额)后运行,但最终总是失败并显示此错误消息,我认为这是由于我的数据集太大造成的,但我不确定。Dataprep应该能够处理任何规模的ETL作业,而这甚至不是一个很大的作业。无论如何,这是错误消息,如有任何帮助,将不胜感激:

java.lang.RuntimeException: org.apache.beam.sdk.util.UserCodeException: java.lang.RuntimeException: java.io.IOException: INVALID_ARGUMENT: Shuffle key too large:2001941 > 1572864
at com.google.cloud.dataflow.worker.GroupAlsoByWindowsParDoFn$1.output(GroupAlsoByWindowsParDoFn.java:182)
at com.google.cloud.dataflow.worker.GroupAlsoByWindowFnRunner$1.outputWindowedValue(GroupAlsoByWindowFnRunner.java:104)
at com.google.cloud.dataflow.worker.util.BatchGroupAlsoByWindowViaIteratorsFn.processElement(BatchGroupAlsoByWindowViaIteratorsFn.java:121)
at com.google.cloud.dataflow.worker.util.BatchGroupAlsoByWindowViaIteratorsFn.processElement(BatchGroupAlsoByWindowViaIteratorsFn.java:53)
at com.google.cloud.dataflow.worker.GroupAlsoByWindowFnRunner.invokeProcessElement(GroupAlsoByWindowFnRunner.java:117)
...
可在此处找到完整的错误消息:

我得到了几个配额的增加,虽然这让工作比以前继续,但它仍然以相同的错误结束(尽管洗牌键的大小更大)。由于配额相关的问题,它现在似乎没有撞到墙


除了放弃Dataprep和返回map reduce之外,还有什么想法吗?

在我看来,这更可能是一个错误,即单个列中的单个值太大,而不是数据集太大。是否有值这么长的列?(这里大约2MB)


也就是说,我认为这应该作为一个bug报告给Dataprep。似乎它们执行逐列分组的值,并且在分组之前可能应该将它们修剪为较小的大小。我不知道他们是否在跟踪StackOverflow。

在我看来,这更可能是一个错误,即单个列中的单个值太大,而不是数据集太大。是否有值这么长的列?(这里大约2MB)@jkff如果还没有人告诉你,你是个漂亮的男人。解决了我的问题,谢谢!如果你想把它作为答案发布,我会把它标记为已接受。再次感谢您的帮助:)