Rest 在hadoop中,可以通过knox+访问的数据大小是否有任何限制;webhdfs?

Rest 在hadoop中,可以通过knox+访问的数据大小是否有任何限制;webhdfs?,rest,hadoop,bigdata,webhdfs,Rest,Hadoop,Bigdata,Webhdfs,在hadoop中,可以通过knox+webhdfs访问/摄取到HDFS的数据大小是否有任何限制?理论上,没有限制。但是,使用Knox会造成瓶颈。纯WebHDFS会将每个块的读/写请求重定向到 (可能)不同的数据节点,并行访问;但在Knox中,所有内容都通过单个网关路由并序列化 也就是说,您可能不想使用Knox和WebHDFS上传一个大文件。这将花费太长的时间(取决于您的客户,您可能会得到一个超时时间)。理论上,没有限制。但是,使用Knox会造成瓶颈。纯WebHDFS会将每个块的读/写请求重定向到

在hadoop中,可以通过knox+webhdfs访问/摄取到HDFS的数据大小是否有任何限制?

理论上,没有限制。但是,使用Knox会造成瓶颈。纯WebHDFS会将每个块的读/写请求重定向到 (可能)不同的数据节点,并行访问;但在Knox中,所有内容都通过单个网关路由并序列化


也就是说,您可能不想使用Knox和WebHDFS上传一个大文件。这将花费太长的时间(取决于您的客户,您可能会得到一个超时时间)。

理论上,没有限制。但是,使用Knox会造成瓶颈。纯WebHDFS会将每个块的读/写请求重定向到 (可能)不同的数据节点,并行访问;但在Knox中,所有内容都通过单个网关路由并序列化


也就是说,您可能不想使用Knox和WebHDFS上传一个大文件。这将花费太长的时间(取决于您的客户端,您可能会得到一个超时)。

当您需要从受防火墙保护的群集外部访问webhdfs资源时,Apache Knox是您的最佳选择。如果您没有访问所有datanode端口的权限,那么直接访问webhdfs将不适用于您。为所有这些主机打开防火墙漏洞:端口违背了防火墙的目的,引入了管理噩梦,并不必要地将网络细节泄露给外部客户端

正如Hellmar所指出的,这取决于您的特定用例和客户机。如果您需要大量的文件或文件的数量,那么您可能需要考虑一种不同的方法来访问这些客户机的集群内部设备。如果您只需要访问任意大小的文件,那么您应该能够将该访问扩展到许多客户端

不必使用kerberos/SPNEGO进行身份验证来访问这些资源会打开许多可能的客户端,否则这些客户端将无法用于安全集群


《Knox用户指南》中有访问webhdfs资源的示例,您可以找到它们:-这还说明了Knox提供的基于groovy的脚本。这让您可以做一些非常有趣的事情。

当您需要从受防火墙保护的集群外部访问webhdfs资源时,Apache Knox是您的最佳选择。如果您没有访问所有datanode端口的权限,那么直接访问webhdfs将不适用于您。为所有这些主机打开防火墙漏洞:端口违背了防火墙的目的,引入了管理噩梦,并不必要地将网络细节泄露给外部客户端

正如Hellmar所指出的,这取决于您的特定用例和客户机。如果您需要大量的文件或文件的数量,那么您可能需要考虑一种不同的方法来访问这些客户机的集群内部设备。如果您只需要访问任意大小的文件,那么您应该能够将该访问扩展到许多客户端

不必使用kerberos/SPNEGO进行身份验证来访问这些资源会打开许多可能的客户端,否则这些客户端将无法用于安全集群


《Knox用户指南》中有访问webhdfs资源的示例,您可以找到它们:-这还说明了Knox提供的基于groovy的脚本。这让您可以做一些非常有趣的事情。

谢谢Hellmar的回复。除了knox之外,还有其他解决方案可供我使用,以便使用WebHDFS以安全的方式访问数据(不用于上传)?您可以通过HTTPS使用WebHDFS,并使用Kerberos和SPNEGO对其进行保护。缺点是,每台需要这种访问的机器上都需要一个Kerberos客户端。感谢Hellmar的回复。除了knox之外,还有其他解决方案可以使用吗?我可以使用WebHDFS以安全的方式访问数据(不用于上传)?您可以通过HTTPS使用WebHDFS,并使用Kerberos和SPNEGO对其进行保护。缺点是,在需要这种访问的每台机器上都需要一个Kerberos客户端。