Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon web services 如何使用AWS AMI管理机器学习中的海量数据_Amazon Web Services_Apache Spark_Machine Learning_Amazon Sagemaker - Fatal编程技术网

Amazon web services 如何使用AWS AMI管理机器学习中的海量数据

Amazon web services 如何使用AWS AMI管理机器学习中的海量数据,amazon-web-services,apache-spark,machine-learning,amazon-sagemaker,Amazon Web Services,Apache Spark,Machine Learning,Amazon Sagemaker,我对Tensorflow和机器学习比较陌生。我的数据集有数百万行,每行超过2000列。我正在考虑在AWS AMI(C5实例)上使用Tensorflow。我不确定在哪里/如何存储这些海量数据 1-我应该将其作为csv存储在S3 bucket中,还是应该将其加载到某个bigdata系统中,然后使用Apache spark将其流式输出?你能带我到这里吗 2-另外,如果我必须清理这些数据,那么正确的方法是什么?可能使用AWS Sagemaker和python/pandas(通过笔记本)来清理数据?这是正

我对Tensorflow和机器学习比较陌生。我的数据集有数百万行,每行超过2000列。我正在考虑在AWS AMI(C5实例)上使用Tensorflow。我不确定在哪里/如何存储这些海量数据

1-我应该将其作为csv存储在S3 bucket中,还是应该将其加载到某个bigdata系统中,然后使用Apache spark将其流式输出?你能带我到这里吗


2-另外,如果我必须清理这些数据,那么正确的方法是什么?可能使用AWS Sagemaker和python/pandas(通过笔记本)来清理数据?这是正确的方法吗

我可以提供一些建议,但每个项目都是不同的,使用最适合您的项目

这是一个一次性的数据探索还是你需要经常处理的事情?为了经常这样做,spark可能是正确的工具。Spark非常擅长将数据转换/特征化/清理/预处理为更适合tensorflow的格式(通常为稀疏格式)。这里最重要的是让你的GPU保持忙碌,为了实现这一点,你需要在使用tf之前尽可能多地进行预处理。如果没有小文件,S3是一个很好的存储器


为了让tensorflow开心,大多数时候你需要加密你的特征向量。这样,您就可以获取一小批记录,并将稀疏特征向量转换为密集向量。只有这样你才能把它寄给tf。这是因为GPU在处理稀疏数据方面非常糟糕,有些操作(如卷积)甚至不支持稀疏输入。(由于这是一个活跃的研究领域,所有这些都可以随时改变)

非常感谢。这很有帮助。我可能需要的是一次性的探索,基本上是找到最相关的列并清理数据。据我所知,对于这种特定情况,最好的方法是首先在ApacheSpark中加载/清理/转换数据,然后在Tensorflow中使用清理后的数据。我没听错吧?没错。。然而,如果您只做一次,那么最好使用常规python或其他您熟悉的工具。