Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/333.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 无法在udf函数中使用numpy_Python_Numpy_Kubernetes_Pyspark - Fatal编程技术网

Python 无法在udf函数中使用numpy

Python 无法在udf函数中使用numpy,python,numpy,kubernetes,pyspark,Python,Numpy,Kubernetes,Pyspark,我试图在spark kubernetes集群上运行一些代码 "spark.kubernetes.container.image", "kublr/spark-py:2.4.0-hadoop-2.6" 我试图运行的代码如下 def getMax(row, subtract): ''' getMax takes two parameters - row: array with parameters subtract: normal value of the par

我试图在spark kubernetes集群上运行一些代码

"spark.kubernetes.container.image", "kublr/spark-py:2.4.0-hadoop-2.6"
我试图运行的代码如下

def getMax(row, subtract):
    '''
    getMax takes two parameters - 
    row: array with parameters
    subtract: normal value of the parameter
    It outputs the value most distant from the normal
    '''
    try:
        row = np.array(row)
        out = row[np.argmax(row-subtract)]
    except ValueError:
        return None
    return out.item()

from pyspark.sql.types import FloatType
udf_getMax = F.udf(getMax, FloatType())
我传递的数据帧如下所示

然而,我得到以下错误

ModuleNotFoundError: No module named 'numpy'
当我做一个stackoverflow serach时,我可以在纱线中的spark中发现类似的numpy导入错误问题

最疯狂的是我能把numpy从外面

import numpy as np 
函数外部的命令未收到任何错误

为什么会这样?如何解决此问题或如何继续。感谢您的帮助


谢谢

这只意味着您的工作节点没有安装numpy,您可以进入并安装它,也可以在调用时分发numpy库,如链接中所述。这将帮助您打包virtualenv,并且它有链接来运送您的virtualenv