Mysql 基于100 TB数据的机器学习正确数据库_Mysql_Mongodb_Hadoop_Machine Learning

Mysql 基于100 TB数据的机器学习正确数据库

mysql mongodb hadoop machine-learning

Mysql 基于100 TB数据的机器学习正确数据库,mysql,mongodb,hadoop,machine-learning,Mysql,Mongodb,Hadoop,Machine Learning,我需要对大约100tb的web数据进行分类和聚类，我计划使用Hadoop、Mahout和AWS。您建议我使用什么数据库来存储数据？MySQL会工作吗？或者像MongoDB这样的东西会更快吗？一个数据库或另一个数据库还有其他优势吗？谢谢。最简单、最直接的答案是直接将文件放在HDFS或S3中（因为您提到了AWS），然后直接将Hadoop/Mahout指向它们。其他数据库有不同的用途，但Hadoop/HDFS正是为这种高容量、批处理式分析而设计的。如果您想要一个更具数据库风格的访问层，那么您可以不费吹

我需要对大约100tb的web数据进行分类和聚类，我计划使用Hadoop、Mahout和AWS。您建议我使用什么数据库来存储数据？MySQL会工作吗？或者像MongoDB这样的东西会更快吗？一个数据库或另一个数据库还有其他优势吗？谢谢。

最简单、最直接的答案是直接将文件放在HDFS或S3中（因为您提到了AWS），然后直接将Hadoop/Mahout指向它们。其他数据库有不同的用途，但Hadoop/HDFS正是为这种高容量、批处理式分析而设计的。如果您想要一个更具数据库风格的访问层，那么您可以不费吹灰之力地添加配置单元。底层存储层仍然是HDFS或S3，但是Hive可以让您像SQL一样访问存储在那里的数据，如果您需要的话

只是为了解决您提出的另外两个选项：MongoDB适用于低延迟读写，但您可能不需要它。我不了解MySQL的所有高级功能，但我猜100TB对它来说将是相当困难的，特别是当你开始进入访问所有数据的大型查询时。它更适合于传统的事务性访问。

这取决于您所谈论的数据类型。是关系型的吗？数字的？文本？它的内部结构复杂吗？没有一个数据库比其他数据库更快。您需要选择一个最适合您的数据。可能是平面文件，或者是这里的答案。它们是html文件，我将处理文本。最初，最初，我只是将所有文本放入每个文件的单词包中，但稍后我可能会使用html结构。除非您知道结构，否则这个问题不可能诚实地回答。听起来您只需要将这些内容放在某个地方。如果是这样的话，我会将其作为普通平面文件存储在Hadoop DFS中，直到您需要对其进行更多操作。谢谢Alex和tadman。这正是我想要的。谢谢。出于好奇，你知道S3和HDFS在性能上是否有很大差异吗？我找到了关于用S3替换HDFS的文档，但没有找到关于性能的文档。