GTX 295与其他用于cuda开发的nvidia卡

GTX 295与其他用于cuda开发的nvidia卡,cuda,gpu,Cuda,Gpu,什么是用于cuda开发的最好的nvidia视频卡。单个GTX 295有2个GPU,是否可以有2个GTX 295并在我的cuda代码中使用4个GPU? 买两张480牌比买两张295牌好吗?一张费米牌会比两张牌都好吗 什么是用于cuda开发的最好的nvidia视频卡 任何符合你预算和需要的东西。我知道这有点模糊,但毕竟它真的就这么简单;) 单个GTX 295有2个GPU,在我的cuda代码中是否可以有2个GTX 295并使用4个GPU 当然可以。唯一的缺点是GTX 295上的2个GPU共享一个PCI

什么是用于cuda开发的最好的nvidia视频卡。单个GTX 295有2个GPU,是否可以有2个GTX 295并在我的cuda代码中使用4个GPU?
买两张480牌比买两张295牌好吗?一张费米牌会比两张牌都好吗

什么是用于cuda开发的最好的nvidia视频卡

任何符合你预算和需要的东西。我知道这有点模糊,但毕竟它真的就这么简单;)

单个GTX 295有2个GPU,在我的cuda代码中是否可以有2个GTX 295并使用4个GPU

当然可以。唯一的缺点是GTX 295上的2个GPU共享一个PCI。这是否与您相关取决于应用程序是否需要与主机进行密集通信

买两张480牌比买两张295牌好吗?一张费米牌会比两张牌都好吗

从原始峰值性能的角度来看,GTX 295(几乎是2倍GTX 280,不考虑共享PCI)优于480。然而,与GT200相比,GF10x系列体系结构在许多方面都有所改进,有关详细信息,请参阅和

如果您计划使用双精度,GF10x系列具有更高的双精度支持,但最好知道GeForce卡的双精度支持上限为单精度性能的1/8(通常约为一半)

因此,我建议,除非你有足够的理由获得大量GFLOP(Folding@Home?)以即将过时的硬件的形式,如果您想节省约25%的成本,可以购买GTX 480或470

有可能在我的cuda代码中使用2个GTX 295和4个GPU吗

对。或者四人组,如果你完全疯了

买两张480牌比买两张295牌好吗

有争议。295作为双gpu具有略高的原始魅力,但480作为40nm处理卡,没有双gpu开销,可以更好地使用其资源。基准各不相同。当然,费米4xx系列具有更现代的功能支持(3D、DirectX、OpenCL等)


但dual-295将有巨大的PSU和冷却需求。而dual-480的运行温度也差不多。更不用说费用了。你在做什么你认为你需要这个?您是否考虑过更主流的部件,例如460,通常认为它比问题的470–480(GF100)部件具有更好的性价比?

直接回答:我会选择一个或两个GTX 480。但我认为我的推理与@bobince或@pszilard有点不同

背景:我刚刚做出了与你面临的相同的决定,但我们的情况可能大不相同

我是一名统计学研究生,在一个gpu计算资源经费很少的系里,校园里确实有一个费米盒子连接到我可以访问的两个节点上。但这些都是在linux中的——我喜欢它——但我真的想用nSight来测试和调优我的代码,所以我需要windows——所以我决定购买一个开发盒,我可以双启动,Ubuntu x64用于生产运行,并用VS 2010()和nSight 1.5赢得7用于开发。也就是说,回到为什么我买了两台GTX 480(EVGA太棒了!!),而不是两台GTX 285或295

我花了两年的时间开发了几款CUDA内核。对我来说,开发过程中最棘手的部分是内存管理。我花了三个月的大部分时间试图将Cholesky分解和回代压缩到16个单精度寄存器中——在GTX 285或295产生50%的性能损失之前,您可以使用的最大值(从17个寄存器到16个寄存器,大约3周)。对我来说,所有费米体系结构的寄存器都增加了一倍,这意味着在这三个月里,我在GTX 480上获得了约10%的改进,而不是GTX 285上的50%,因此,可能不值得我花时间——事实上比这要微妙一些,但你明白了

如果你对CUDA相当陌生——你可能是因为你问了——我会说32个寄存器是巨大的。其次,我认为费米体系结构的一级缓存可以直接转化为更快的全局内存访问——当然可以,但我还没有直接衡量影响。如果你不需要那么多的全局内存,你可以用更大的一级缓存替换三倍的共享内存——随着矩阵大小的增加,这对我来说也是一个很紧的压力

然后我同意@pszilard的观点,如果你需要双精度,费米绝对是最好的选择——尽管我仍然会先用单精度编写你的代码,调整它,然后迁移到双精度

我认为并发内核执行对你来说并不重要——这真的很酷,内核完成的延迟可以少几个数量级——但是你可能会首先关注一个内核,而不是并行内核。如果你想做流式或并行内核,那么你需要费米——285/295根本做不到

最后,使用295的缺点是您必须编写两层并行性:(1)一层用于在卡上分布块(或内核?)(2)gpu内核本身如果您刚刚开始,那么将并行性保持在一个位置(在一张卡上)比同时进行两次战斗要容易得多

Ps.,如果你还没有写你的内核,你可以考虑只得到一张卡片,等待六个月,看看景观是否再次改变——尽管我不知道下一张卡片何时会被释放。
PPs。我非常喜欢在GTX 480上运行我的cuda内核,我在特斯拉C1070上调试/设计了GTX 480,并立即实现了2倍的速度提升。钱花得很好。

@M.Tibbits:Fermi+上的寄存器数量增加了一倍,共享内存可能增加了三倍,这一点很好。然而,作为一个首发,我会猜测