Hadoop SAN存储重用

Hadoop SAN存储重用,hadoop,hdfs,ethernet,san,oracle-rac,Hadoop,Hdfs,Ethernet,San,Oracle Rac,我们有600 TB的EMC SAN存储。目前,Oracle RAC正在使用此存储。出于可扩展性的原因,我们正在用Hadoop存储(纱线、Spark-Hive、Shark)取代Oracle RAC,尽管我们在性能上做了一些妥协 对于Hadoop,建议使用本地存储而不是SAN存储。但我们的管理层不愿意浪费SAN存储。他们希望保护对SAN存储的投资 我们如何最好地将SAN用于Hadoop?以太网升级会有帮助吗?有哪些选项可以最大限度地利用SAN存储(如Hadoop存储)。显然,您将SAN用于Hadoo

我们有600 TB的EMC SAN存储。目前,Oracle RAC正在使用此存储。出于可扩展性的原因,我们正在用Hadoop存储(纱线、Spark-Hive、Shark)取代Oracle RAC,尽管我们在性能上做了一些妥协

对于Hadoop,建议使用本地存储而不是SAN存储。但我们的管理层不愿意浪费SAN存储。他们希望保护对SAN存储的投资


我们如何最好地将SAN用于Hadoop?以太网升级会有帮助吗?有哪些选项可以最大限度地利用SAN存储(如Hadoop存储)。

显然,您将SAN用于Hadoop,但这是不可取的。SAN控制器中将存在争用,并会降低性能

将SAN用于hadoop的最佳方法是:

1.使用RAID-0创建LUN

2.LUN不应共享,只需专用于一台DataNode服务器

3.如果数据节点需要10GB,则创建2个LUN(或偶数),并在SAN的两个控制器之间对这些LUN进行负载平衡


显然,您可以将SAN用于具有适当RAID级别(冗余-非零)的NameNode

假设我们使用相同的术语—特别是SAN是通过光纤通道网络访问的块设备—那么“本地存储”和“SAN存储”之间没有太大区别

您从it中获得的性能受到相同因素的限制—控制器数量、磁盘轴数量、争用率等。您购买存储阵列/SAN的首要原因是,这样您就可以整合工作负载,以相同(或更低)的平均值获得更高的突发性能

但是,还有一个因素-SAN通常包括一个结构,这是一个用于承载磁盘存储流量的网络。用于it的交换机通常具有高性能/低延迟,但它们也可能是瓶颈和争用点

Hadoop。。。通过使用HDFS有效地做了同样的事情——使用它的多个本地磁盘来获得大的“突发”。这将内在地导致SAN上的争用,因此您再也得不到多少整合好处了,而且您的情况可能会更糟,因为争用意味着瓶颈和延迟

您可能会发现,如果您的存储阵列具有良好的峰值吞吐量、良好的重复数据消除机制和大型缓存,您的情况会更好。只需确保您拥有足够的端到端峰值吞吐量和IOP容量。 也许你会发现自己的境况比实际情况更糟,但你是否应该以较低的成本重复使用某些东西,而不是支付额外费用来正确使用它,这与其说是一个技术决策,不如说是一个it政策决策