Hadoop SAN存储重用_Hadoop_Hdfs_Ethernet_San_Oracle Rac

Hadoop SAN存储重用

hadoop

Hadoop SAN存储重用,hadoop,hdfs,ethernet,san,oracle-rac,Hadoop,Hdfs,Ethernet,San,Oracle Rac,我们有600 TB的EMC SAN存储。目前，Oracle RAC正在使用此存储。出于可扩展性的原因，我们正在用Hadoop存储（纱线、Spark-Hive、Shark）取代Oracle RAC，尽管我们在性能上做了一些妥协对于Hadoop，建议使用本地存储而不是SAN存储。但我们的管理层不愿意浪费SAN存储。他们希望保护对SAN存储的投资我们如何最好地将SAN用于Hadoop？以太网升级会有帮助吗？有哪些选项可以最大限度地利用SAN存储（如Hadoop存储）。显然，您将SAN用于Hadoo

我们有600 TB的EMC SAN存储。目前，Oracle RAC正在使用此存储。出于可扩展性的原因，我们正在用Hadoop存储（纱线、Spark-Hive、Shark）取代Oracle RAC，尽管我们在性能上做了一些妥协

对于Hadoop，建议使用本地存储而不是SAN存储。但我们的管理层不愿意浪费SAN存储。他们希望保护对SAN存储的投资

我们如何最好地将SAN用于Hadoop？以太网升级会有帮助吗？有哪些选项可以最大限度地利用SAN存储（如Hadoop存储）。

显然，您将SAN用于Hadoop，但这是不可取的。SAN控制器中将存在争用，并会降低性能

将SAN用于hadoop的最佳方法是：

1.使用RAID-0创建LUN

2.LUN不应共享，只需专用于一台DataNode服务器

3.如果数据节点需要10GB，则创建2个LUN（或偶数），并在SAN的两个控制器之间对这些LUN进行负载平衡

显然，您可以将SAN用于具有适当RAID级别（冗余-非零）的NameNode

假设我们使用相同的术语—特别是SAN是通过光纤通道网络访问的块设备—那么“本地存储”和“SAN存储”之间没有太大区别

您从it中获得的性能受到相同因素的限制—控制器数量、磁盘轴数量、争用率等。您购买存储阵列/SAN的首要原因是，这样您就可以整合工作负载，以相同（或更低）的平均值获得更高的突发性能

但是，还有一个因素-SAN通常包括一个结构，这是一个用于承载磁盘存储流量的网络。用于it的交换机通常具有高性能/低延迟，但它们也可能是瓶颈和争用点

Hadoop。。。通过使用HDFS有效地做了同样的事情——使用它的多个本地磁盘来获得大的“突发”。这将内在地导致SAN上的争用，因此您再也得不到多少整合好处了，而且您的情况可能会更糟，因为争用意味着瓶颈和延迟

您可能会发现，如果您的存储阵列具有良好的峰值吞吐量、良好的重复数据消除机制和大型缓存，您的情况会更好。只需确保您拥有足够的端到端峰值吞吐量和IOP容量。也许你会发现自己的境况比实际情况更糟，但你是否应该以较低的成本重复使用某些东西，而不是支付额外费用来正确使用它，这与其说是一个技术决策，不如说是一个it政策决策