Amazon web services 如何使用AWS AMI管理机器学习中的海量数据_Amazon Web Services_Apache Spark_Machine Learning_Amazon Sagemaker

Amazon web services 如何使用AWS AMI管理机器学习中的海量数据

amazon-web-services apache-spark machine-learning

Amazon web services 如何使用AWS AMI管理机器学习中的海量数据,amazon-web-services,apache-spark,machine-learning,amazon-sagemaker,Amazon Web Services,Apache Spark,Machine Learning,Amazon Sagemaker,我对Tensorflow和机器学习比较陌生。我的数据集有数百万行，每行超过2000列。我正在考虑在AWS AMI（C5实例）上使用Tensorflow。我不确定在哪里/如何存储这些海量数据 1-我应该将其作为csv存储在S3 bucket中，还是应该将其加载到某个bigdata系统中，然后使用Apache spark将其流式输出？你能带我到这里吗 2-另外，如果我必须清理这些数据，那么正确的方法是什么？可能使用AWS Sagemaker和python/pandas（通过笔记本）来清理数据？这是正

我对Tensorflow和机器学习比较陌生。我的数据集有数百万行，每行超过2000列。我正在考虑在AWS AMI（C5实例）上使用Tensorflow。我不确定在哪里/如何存储这些海量数据

1-我应该将其作为csv存储在S3 bucket中，还是应该将其加载到某个bigdata系统中，然后使用Apache spark将其流式输出？你能带我到这里吗

2-另外，如果我必须清理这些数据，那么正确的方法是什么？可能使用AWS Sagemaker和python/pandas（通过笔记本）来清理数据？这是正确的方法吗

我可以提供一些建议，但每个项目都是不同的，使用最适合您的项目

这是一个一次性的数据探索还是你需要经常处理的事情？为了经常这样做，spark可能是正确的工具。Spark非常擅长将数据转换/特征化/清理/预处理为更适合tensorflow的格式（通常为稀疏格式）。这里最重要的是让你的GPU保持忙碌，为了实现这一点，你需要在使用tf之前尽可能多地进行预处理。如果没有小文件，S3是一个很好的存储器

为了让tensorflow开心，大多数时候你需要加密你的特征向量。这样，您就可以获取一小批记录，并将稀疏特征向量转换为密集向量。只有这样你才能把它寄给tf。这是因为GPU在处理稀疏数据方面非常糟糕，有些操作（如卷积）甚至不支持稀疏输入。（由于这是一个活跃的研究领域，所有这些都可以随时改变）

非常感谢。这很有帮助。我可能需要的是一次性的探索，基本上是找到最相关的列并清理数据。据我所知，对于这种特定情况，最好的方法是首先在ApacheSpark中加载/清理/转换数据，然后在Tensorflow中使用清理后的数据。我没听错吧？没错。。然而，如果您只做一次，那么最好使用常规python或其他您熟悉的工具。