Mysql 基于100 TB数据的机器学习正确数据库

Mysql 基于100 TB数据的机器学习正确数据库,mysql,mongodb,hadoop,machine-learning,Mysql,Mongodb,Hadoop,Machine Learning,我需要对大约100tb的web数据进行分类和聚类,我计划使用Hadoop、Mahout和AWS。您建议我使用什么数据库来存储数据?MySQL会工作吗?或者像MongoDB这样的东西会更快吗?一个数据库或另一个数据库还有其他优势吗?谢谢。最简单、最直接的答案是直接将文件放在HDFS或S3中(因为您提到了AWS),然后直接将Hadoop/Mahout指向它们。其他数据库有不同的用途,但Hadoop/HDFS正是为这种高容量、批处理式分析而设计的。如果您想要一个更具数据库风格的访问层,那么您可以不费吹

我需要对大约100tb的web数据进行分类和聚类,我计划使用Hadoop、Mahout和AWS。您建议我使用什么数据库来存储数据?MySQL会工作吗?或者像MongoDB这样的东西会更快吗?一个数据库或另一个数据库还有其他优势吗?谢谢。

最简单、最直接的答案是直接将文件放在HDFS或S3中(因为您提到了AWS),然后直接将Hadoop/Mahout指向它们。其他数据库有不同的用途,但Hadoop/HDFS正是为这种高容量、批处理式分析而设计的。如果您想要一个更具数据库风格的访问层,那么您可以不费吹灰之力地添加配置单元。底层存储层仍然是HDFS或S3,但是Hive可以让您像SQL一样访问存储在那里的数据,如果您需要的话


只是为了解决您提出的另外两个选项:MongoDB适用于低延迟读写,但您可能不需要它。我不了解MySQL的所有高级功能,但我猜100TB对它来说将是相当困难的,特别是当你开始进入访问所有数据的大型查询时。它更适合于传统的事务性访问。

这取决于您所谈论的数据类型。是关系型的吗?数字的?文本?它的内部结构复杂吗?没有一个数据库比其他数据库更快。您需要选择一个最适合您的数据。可能是平面文件,或者是这里的答案。它们是html文件,我将处理文本。最初,最初,我只是将所有文本放入每个文件的单词包中,但稍后我可能会使用html结构。除非您知道结构,否则这个问题不可能诚实地回答。听起来您只需要将这些内容放在某个地方。如果是这样的话,我会将其作为普通平面文件存储在Hadoop DFS中,直到您需要对其进行更多操作。谢谢Alex和tadman。这正是我想要的。谢谢。出于好奇,你知道S3和HDFS在性能上是否有很大差异吗?我找到了关于用S3替换HDFS的文档,但没有找到关于性能的文档。