Amazon s3 无法将文件和解析文件从s3 bucket导入到h2o flow版本3.22.0.2
我曾经通过以下文件路径格式将数据文件从s3存储桶导入H2O流(版本3.18.0.10): 更新到版本3.22.0.2后,我在相同的文件路径下遇到以下错误Amazon s3 无法将文件和解析文件从s3 bucket导入到h2o flow版本3.22.0.2,amazon-s3,h2o,Amazon S3,H2o,我曾经通过以下文件路径格式将数据文件从s3存储桶导入H2O流(版本3.18.0.10): 更新到版本3.22.0.2后,我在相同的文件路径下遇到以下错误 Error calling GET /3/ImportFiles?path=s3a%3A%2F%2ACCESS KEY%3SECRET KEY%40parvin-us-west1-data%2FProd%2F154351418084_train%2F -------------------- HTTP connection failure: s
Error calling GET /3/ImportFiles?path=s3a%3A%2F%2ACCESS KEY%3SECRET KEY%40parvin-us-west1-data%2FProd%2F154351418084_train%2F
--------------------
HTTP connection failure: status=error, code=500, error=Server Error
--------------------
似乎现在它需要不同的s3文件路径格式,是否有关于如何将带有凭据的s3文件路径传递到最新版本的h2o的文档
更新:
更改配置后,我可以导入文件。运行importfile单元格后,将显示以下内容
已导入1/1个文件。
文件s3a://parvin-us-west1-data/Prod/154351418084\u train/data.csv
但是,当我按“解析这些文件”时,它会显示包含以下内容的新单元格,但不会取得任何进展:
setupParse source_frames:[“s3a://parvin-us-west1-data/Prod/154351418084_train/data.csv”]
页面底部还显示“Requesting/3/ParseSetup”,但什么也没发生。即使它在20分钟后也不会给出超时错误
终端日志的最后一行是:
1283#71051-12信息:POST/3/ParseSetup,parms:{source_frames=[“s3a://parvin-us-west1-data/Prod/154351418084_train/data.csv”]
关于没有此问题的版本(3.18.0.10)的注意事项:
按“解析这些文件”后:
它会将以下信息提示到单元格中:
setupParse source_frames:[“s3a://访问密钥:SECRETKEY@parvin-us-west1-data/Prod/154351418084_train/data.csv“]
区别在于它还包括url的凭证部分
更新:
我还尝试以独立模式启动h2o(使用core-site.xml传递凭据)。
即使在这种情况下,在导入文件后,它也无法解析文件。文件格式应该相同(请参阅文章底部的选项3),我做了一个快速测试,它使用
importFiles[“s3a://对我有效。您也可以转到此链接以查看多节点模式:
当使用简单的Java启动命令在独立模式下运行H2O时,我们可以通过两种方式传递S3凭据
您可以通过创建core-site.xml文件并使用-hdfs_config标志传入独立模式下的凭据。有关示例core-site.xml文件,请参阅core-site.xml
编辑core-site.xml文件中的属性,以包括您的访问密钥ID和访问密钥,如以下示例所示:
fs.s3.awsAccessKeyId
[AWS密钥]
fs.s3.awsSecretAccessKey
[AWS秘密访问密钥]
通过在命令行中输入以下命令,使用配置文件core-site.xml启动:
java-jar h2o.jar-hdfs\u config core site.xml
使用带有S3 URL路径的importFile
导入数据:S3://bucket/path/to/file.csv
。您可以在Flow、R或Python中的S3 URL中传递Minio访问密钥和机密访问密钥(其中AWS\u Access\u密钥表示您的用户名,AWS\u Secret\u密钥表示您的密码)
要从Flow API导入数据,请执行以下操作:
importFiles[“s3://:@bucket/path/to/file.csv”]
您可以测试访问以下公开可用的文件并告诉我您是否仍然存在问题吗?因此,在您单击导入文件后
粘贴http://h2o-public-test-data.s3.amazonaws.com/smalldata/prostate/prostate.csv
并查看是否有效。还请指定如何启动h2o:是否使用了h2o.init()-使用什么参数。或者您是以其他方式启动的。谢谢!是的,它使用提供的公共文件路径工作。当前版本似乎不接受s3a协议。在此版本中,如何从s3传递私有文件路径?我正在使用h2o.jar启动并运行h2o Flow。您是否可以下载日志并将其发送到support@h2o.ai?谢谢!@Lauren,你想为电子邮件添加一个特殊的主题或标记以使其可见吗?(我将包括此线程的链接。)没有特殊标记我们将识别该问题。谢谢!谢谢你的回复。我修复了3.22.0.2版本的importfile的问题。现在通过传递:importfile[“s3a://访问密钥:机密KEY@parvin-us-west1-data/Prod/154351418084_train/“]它可以导入文件。但是之后它无法解析该文件。您能否确认您也可以用这种格式的文件路径解析该文件?问题是当我按(解析这些文件)时在3.22 flow中,源_帧不包括url的凭据部分。而在3.18中,setupParse的源文件也包括凭据。@ParvinDadgar是的,我能够解析该文件。您能否更新您的问题,以便包含您看到的错误消息?这可能有助于了解我们的步骤可能存在的差异。谢谢!当然可以。按下后,解析这些文件,我得到包含以下内容的单元格:setupParse source_frames:[“s3a://parvin-us-west1-data/Prod/154351418084_train/data.csv”]页面底部写着:Requesting/3/ParseSetup。它在这个阶段停留了20分钟。在日志中,它在POST/3/ParseSetup之后没有显示任何内容,parms:{source_frames=[“s3a://parvin-us-west1-data/Prod/154351418084_train/data.csv”]。在3.18版本中,我用来获取:setupParse source_frames:[”s3a://访问密钥:机密KEY@parvin-us-west1-data/Prod/154351418084_train/data.csv“]运行良好。
Error calling GET /3/ImportFiles?path=s3a%3A%2F%2ACCESS KEY%3SECRET KEY%40parvin-us-west1-data%2FProd%2F154351418084_train%2F
--------------------
HTTP connection failure: status=error, code=500, error=Server Error
--------------------