Python hadoop流媒体:在EMR上导入模块
如何导入模块,如用于hadoop流的nltk 概述的步骤是:Python hadoop流媒体:在EMR上导入模块,python,hadoop,emr,Python,Hadoop,Emr,如何导入模块,如用于hadoop流的nltk 概述的步骤是: zip -r nltkandyaml.zip nltk yaml mv ntlkandyaml.zip /path/to/where/your/mapper/will/be/nltkandyaml.mod 现在,您可以导入nltk模块,以便在Python脚本中使用: 进口zipimport importer = zipimport.zipimporter('nltkandyaml.mod') yaml = importer.load
zip -r nltkandyaml.zip nltk yaml
mv ntlkandyaml.zip /path/to/where/your/mapper/will/be/nltkandyaml.mod
现在,您可以导入nltk模块,以便在Python脚本中使用:
进口zipimport
importer = zipimport.zipimporter('nltkandyaml.mod')
yaml = importer.load_module('yaml')
nltk = importer.load_module('nltk')
我有一个工作,我想运行,我不知道在哪里把压缩文件。我是否需要在boostrapping选项下创建一个引导脚本,还是应该将tar.gz放在S3中,然后放在额外的参数中?我对这一切都很陌生,如果能给我一个能引导我完成整个过程的答案,我将不胜感激。您有以下选择: