如何从PyTorch或Tensorflow等ML库访问GPU中的Spark数据帧数据
目前我正在研究ApacheSpark3.0与Rapids GPU加速的使用。在官方的如何从PyTorch或Tensorflow等ML库访问GPU中的Spark数据帧数据,tensorflow,apache-spark,pytorch,rapids,spark3,Tensorflow,Apache Spark,Pytorch,Rapids,Spark3,目前我正在研究ApacheSpark3.0与Rapids GPU加速的使用。在官方的spark rapids文件中,我遇到了以下几个州: 在某些情况下,您可能希望访问GPU上的原始数据,最好不复制它。其中一个用例是在进行特征提取后将数据导出到ML框架 对我来说,这听起来好像可以让GPU上已经可用的数据从上游Spark ETL过程直接用于Tensorflow或PyTorch等框架。如果是这种情况,我如何从这些框架中访问数据?如果我在这里误解了什么,那么引用的确切含义是什么?您引用的链接实际上只允许
spark rapids
文件中,我遇到了以下几个州:
在某些情况下,您可能希望访问GPU上的原始数据,最好不复制它。其中一个用例是在进行特征提取后将数据导出到ML框架
对我来说,这听起来好像可以让GPU上已经可用的数据从上游Spark ETL过程直接用于Tensorflow或PyTorch等框架。如果是这种情况,我如何从这些框架中访问数据?如果我在这里误解了什么,那么引用的确切含义是什么?您引用的链接实际上只允许您访问仍然位于GPU上的数据,但是在另一个框架中使用该数据,如Tensorflow或PyTorch并不是那么简单 TL;博士除非您有一个明确设置的库来使用RAPIDS加速器,否则您可能希望使用RAPIDS运行ETL,然后保存它,并启动一个新作业来使用该数据训练您的模型 仍然有许多问题需要解决。我们已经在的情况下进行了这些工作,但我们还没有尝试为Tensorflow或PyTorch解决这些问题 大问题是
您引用的链接实际上只允许您访问仍然位于GPU上的数据,但在另一个框架(如Tensorflow或PyTorch)中使用该数据并不是那么简单 TL;博士除非您有一个明确设置的库来使用RAPIDS加速器,否则您可能希望使用RAPIDS运行ETL,然后保存它,并启动一个新作业来使用该数据训练您的模型 仍然有许多问题需要解决。我们已经在的情况下进行了这些工作,但我们还没有尝试为Tensorflow或PyTorch解决这些问题 大问题是