pyspark从何处导入阵列？_Pyspark_Pyspark Sql

pyspark从何处导入阵列？

pyspark

pyspark从何处导入阵列？,pyspark,pyspark-sql,Pyspark,Pyspark Sql,我正在做关于edx的课程。在关于用户定义函数的部分中，使用此代码： def count_nan(V): A = unpackArray(V, data_type=np.float16) return int(sum(np.isnan(A))) Count_nan_udf = udf(count_nan, IntegerType()) 尽管它们没有解释这些函数的来源，即如何将它们导入命名空间我在这里找到了udf： from pyspark.sql.functions impo

我正在做关于edx的课程。在关于用户定义函数的部分中，使用此代码：

def count_nan(V):
    A = unpackArray(V, data_type=np.float16)
    return int(sum(np.isnan(A)))

Count_nan_udf = udf(count_nan, IntegerType())

尽管它们没有解释这些函数的来源，即如何将它们导入命名空间

我在这里找到了udf：

from pyspark.sql.functions import udf

和整数类型：

虽然我找不到数组。我需要导入吗？

我也在学习同样的课程。packArray和unpackArray是在lib/numpy_pack.py文件中定义的用户定义函数

packArray用于将numpy数组打包到bytearray，作为单个字段存储在spark数据帧中。unpackArray是反向操作。

您有一个输入错误：g前面应该是IntegerType no r。您可以从pyspark.sql.typesThanks导入它，这就解释了为什么我没有在那里找到它。我更改了问题以解决unpackArray的导入问题。它似乎来自该课程中的其他地方。但这又有什么关系呢？count_nan的作用很明显——只需编写一些代码来计算V中的nan值。

from pyspark.sql.types import IntegerType