pyspark从何处导入阵列?

pyspark从何处导入阵列?,pyspark,pyspark-sql,Pyspark,Pyspark Sql,我正在做关于edx的课程。在关于用户定义函数的部分中,使用此代码: def count_nan(V): A = unpackArray(V, data_type=np.float16) return int(sum(np.isnan(A))) Count_nan_udf = udf(count_nan, IntegerType()) 尽管它们没有解释这些函数的来源,即如何将它们导入命名空间 我在这里找到了udf: from pyspark.sql.functions impo

我正在做关于edx的课程。在关于用户定义函数的部分中,使用此代码:

def count_nan(V):
    A = unpackArray(V, data_type=np.float16)
    return int(sum(np.isnan(A)))

Count_nan_udf = udf(count_nan, IntegerType())
尽管它们没有解释这些函数的来源,即如何将它们导入命名空间

我在这里找到了udf:

from pyspark.sql.functions import udf
和整数类型:


虽然我找不到数组。我需要导入吗?

我也在学习同样的课程。packArray和unpackArray是在lib/numpy_pack.py文件中定义的用户定义函数


packArray用于将numpy数组打包到bytearray,作为单个字段存储在spark数据帧中。unpackArray是反向操作。

您有一个输入错误:g前面应该是IntegerType no r。您可以从pyspark.sql.typesThanks导入它,这就解释了为什么我没有在那里找到它。我更改了问题以解决unpackArray的导入问题。它似乎来自该课程中的其他地方。但这又有什么关系呢?count_nan的作用很明显——只需编写一些代码来计算V中的nan值。
from pyspark.sql.types import IntegerType