Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/magento/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 合并从csv文件导入的Dask数据帧_Python_Pandas_Dataframe_Pyspark_Dask - Fatal编程技术网

Python 合并从csv文件导入的Dask数据帧

Python 合并从csv文件导入的Dask数据帧,python,pandas,dataframe,pyspark,dask,Python,Pandas,Dataframe,Pyspark,Dask,我需要导入大型数据集并合并它们。我知道还有其他类似的问题,但我找不到我的问题的具体答案。使用dask,我似乎能够将大型数据集读入一个数据帧,但无法将其与另一个数据帧合并 将dask.dataframe作为dd导入 作为pd进口熊猫 我必须用dask来做这件事,因为我用pandas得到了内存问题,杀死了蟒蛇 ps=dd.read_csv'*.dsv',sep='|',低内存=False mx=dd.read_csv'test.csv',sep='|',low_memory=False 这就是我得到

我需要导入大型数据集并合并它们。我知道还有其他类似的问题,但我找不到我的问题的具体答案。使用dask,我似乎能够将大型数据集读入一个数据帧,但无法将其与另一个数据帧合并

将dask.dataframe作为dd导入 作为pd进口熊猫 我必须用dask来做这件事,因为我用pandas得到了内存问题,杀死了蟒蛇 ps=dd.read_csv'*.dsv',sep='|',低内存=False mx=dd.read_csv'test.csv',sep='|',low_memory=False 这就是我得到错误的地方 mg=pd.mergeps,mx,左上为活动ID,右上为WONUM ValueError:无法将DataFrame与类型的实例合并
很明显,它无法将dask数据帧与熊猫数据帧合并,但我如何才能做到这一点?我可以使用pySpark或任何其他方法吗?

@JohnE是对的-Dask数据帧有一个方法,它与;因此,由于您似乎需要内部合并,您只需执行以下操作:

默认情况下,mg=ps.mergemx,左键在class='ACTIVITY\u ID'上,右键在class='WONUM'how='inner'上,就像在pandas中一样
如果您想将Dask数据帧转换为pandas数据帧,来自pandas的Dask可能也很有用。

我对Dask了解不多,但我认为您只需要dd.merge而不是pd.merge?