Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/amazon-web-services/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 在AWS上运行doc2vec的服务是什么?_Python_Amazon Web Services_Gensim_Doc2vec - Fatal编程技术网

Python 在AWS上运行doc2vec的服务是什么?

Python 在AWS上运行doc2vec的服务是什么?,python,amazon-web-services,gensim,doc2vec,Python,Amazon Web Services,Gensim,Doc2vec,我想为我的模型找到最好的超参数,但是在总共486个排列和200k文档上调整6个元参数需要一段时间。这就是为什么我想在AWS上使用免费的学分。理想情况下,我希望运行脚本并获得一个.csv文件作为输出 vector_size = [100, 200, 300] window = [2, 5, 10] epochs = [10, 20, 30] count =[2, 5, 10] dm = [0,1] sample = [10e-4, 10e-5, 10e-6 ] 问题是我从来没有使用过AWS,而

我想为我的模型找到最好的超参数,但是在总共486个排列和200k文档上调整6个元参数需要一段时间。这就是为什么我想在AWS上使用免费的学分。理想情况下,我希望运行脚本并获得一个.csv文件作为输出

vector_size = [100, 200, 300]
window = [2, 5, 10]
epochs = [10, 20, 30]
count =[2, 5, 10] 
dm = [0,1]
sample = [10e-4, 10e-5, 10e-6 ]

问题是我从来没有使用过AWS,而且各种服务的数量非常庞大。你们能告诉我哪种服务适合我的问题吗?

EC2是原始的核心服务之一,它为您提供了一个云中的虚拟系统,具有各种CPU/RAM选项,可以运行您想要的任何东西。通过努力,您可以启动468个节点来并行地训练和评估每个模型,将结果保存在一边,并在运行完成后立即关闭每个节点

(可能会有一个更新的更高级别的服务,它在作业管理方面提供了一些其他类型的帮助,但EC2是云中最初的通用节点。)

元优化的另一个想法:

过度的
时代
应该不会有什么坏处——那只会是浪费。所以你可以用你的最大值,
epochs=30
,做一个大的测试,并且确信其他最好的参数,用这个最大值,用更少的
epochs
,不会有太大的改善


(但是,特别是如果您需要经常重新运行作业,30可能只比一些较小的历次计数稍微好一点-因此您可以单独运行测试,以平衡时间/成本和评估质量。)

我已经接受了答案,但我还有一个问题。如何确保在ec2实例上使用Doc2Vec的快速版本?如果您正在查看日志,Gensim会在其优化代码未运行时发出警告。如果没有安装fast代码,您还可能会注意到速度慢了100倍,可能是在信息级别进行日志记录,也可能是在任何测试运行中。(此外,我认为,如果优化后的代码不可用,最新的Gensim版本就会失败,因为维护不足的纯Python代码已经被删除。)