Algorithm 无MapReduce的大数据文件计算。
我有一个包含百万字向量的文件。每个向量的维数为300 例如: dataFile.txt word1[0.1 0.2 0.8……第300个值] word2[0.30.40.6……第300个值] … … 高达百万 我必须在每次两个字的每一对之间执行运算,这大约是n*n=百万次计算 我只有16GB的RAM和4个内核。我将编写能够使用可用内存和cpu核执行快速计算的python代码。你能帮忙吗 我应该遵循可能的策略。请不要使用mapreduce。鉴于此,您可能会发现将应用程序的大部分设计为几个独立的进程是最容易的,也许可以在某个地方生成输出文件,其他人可以读取并粘贴在一起,以创建最终答案。请查看word2vec()他使用了相同类型的单词嵌入,并且所有内容都非常优化。我肯定他有适合你的东西Algorithm 无MapReduce的大数据文件计算。,algorithm,multiprocessing,large-data,Algorithm,Multiprocessing,Large Data,我有一个包含百万字向量的文件。每个向量的维数为300 例如: dataFile.txt word1[0.1 0.2 0.8……第300个值] word2[0.30.40.6……第300个值] … … 高达百万 我必须在每次两个字的每一对之间执行运算,这大约是n*n=百万次计算 我只有16GB的RAM和4个内核。我将编写能够使用可用内存和cpu核执行快速计算的python代码。你能帮忙吗 我应该遵循可能的策略。请不要使用mapreduce。鉴于此,您可能会发现将应用程序的大部分设计为几个独立的进程