Python UDF-导入/读取外部文件

Python UDF-导入/读取外部文件,python,hive,udf,Python,Hive,Udf,我想将其他python/csv文件导入我的python udf以执行一些操作。 比如, 将表格数据(以流形式逐行流入)与外部.csv行进行比较。 当我试图读取.csv文件的数据时,它会给我一个错误 IOError:File/home/abc/xyz/myfile.csv不存在 如果我理解正确的话,当代码作为常规python脚本(不像udf)编写时,它工作得非常好。你可以试试 添加文件[您的完整文件路径] 或 添加文件[您的目录路径] 因为在引用集群上的任何内容之前,必须将其添加到分发缓存中,以便

我想将其他python/csv文件导入我的python udf以执行一些操作。
比如,
将表格数据(以流形式逐行流入)与外部.csv行进行比较。
当我试图读取.csv文件的数据时,它会给我一个错误

IOError:File/home/abc/xyz/myfile.csv不存在


如果我理解正确的话,当代码作为常规python脚本(不像udf)编写时,它工作得非常好。你可以试试 添加文件[您的完整文件路径] 或 添加文件[您的目录路径]

因为在引用集群上的任何内容之前,必须将其添加到分发缓存中,以便那里的代码可以访问该部分。 你可以看看。
小心语法!它可能会导致许多问题,不幸的是,查询语言解释器无法显示问题的来源,它只显示一些通用的错误报告

看看这里同样的问题,它是由寻址文件时的语法问题引起的


ADD FILE对.csv文件有效,但对.py文件无效,对于.py文件,它会抛出一个错误“import module not found”,我有同样的问题,我需要在Python udf文件中使用一个外部.txt文件;我已经在.sql文件中添加了python udf文件作为“添加文件地址”。但是,我不知道如何从python中引用该.txt文件?