C 测量并提高千兆以太网吞吐量

C 测量并提高千兆以太网吞吐量,c,linux,tcp,C,Linux,Tcp,我们正在开发一个基于Cyclone V的定制板。它是一个FPGA+ARM Soc,运行嵌入式Linux内核3.10-ltsi。我们预期的应用程序是通过TCP千兆以太网将内存中50-400MB范围内的大量原始数据发送到运行在Windows 7上的Java客户端。iperf显示我们板的TCP吞吐量在6xxMBit/s范围内。 问题: 1.我们需要在一定的时间间隔内发送原始内存数据。那么,对于我们的案例,衡量吞吐量的正确方法是什么?目前,我们正在使用gettimeofday包装发送代码,如下所示: i

我们正在开发一个基于Cyclone V的定制板。它是一个FPGA+ARM Soc,运行嵌入式Linux内核3.10-ltsi。我们预期的应用程序是通过TCP千兆以太网将内存中50-400MB范围内的大量原始数据发送到运行在Windows 7上的Java客户端。iperf显示我们板的TCP吞吐量在6xxMBit/s范围内。 问题: 1.我们需要在一定的时间间隔内发送原始内存数据。那么,对于我们的案例,衡量吞吐量的正确方法是什么?目前,我们正在使用gettimeofday包装发送代码,如下所示:

int total_sent = 0, bytes_sent = 0;
gettimeofday(&t0, 0);
for (total_sent = 0; total_sent < data_size;) {
    bytes_sent = write(conn_fd, buf + total_sent, data_size - total_sent);
    if (bytes_sent == -1)
        break;
    total_sent += bytes_sent;
}
gettimeofday(&t1, 0);

unsigned long elapsed_us = (t1.tv_sec - t0.tv_sec) * 1000000 + t1.tv_usec - t0.tv_usec;
double elapsed_s = (double)elapsed_us / 1000000;
printf("Throughput: %f Mbit/s\n", img_size * 8 / elapsed_s / 1000000);
printf("Total bytes sent: %d\n", total_sent);
int total_sent=0,bytes_sent=0;
gettimeofday(&t0,0);
对于(发送的总数=0;发送的总数<数据大小;){
发送的字节数=写入(连接fd,buf+发送的总字节数,数据大小-发送的总字节数);
如果(发送的字节数==-1)
打破
发送的总字节数+=发送的字节数;
}
gettimeofday(&t1,0);
未签名的长时间经过时间=(t1.tv_sec-t0.tv_sec)*1000000+t1.tv_usec-t0.tv_usec;
双运行时间=(双)运行时间/1000000;
printf(“吞吐量:%f Mbit/s\n”,img\u大小*8/s/1000000);
printf(“发送的总字节数:%d\n”,发送的总字节数);
这是衡量吞吐量的正确方法吗

2.是否可以通过两个以太网端口增加吞吐量?类似于将原始数据分为两部分并通过两个端口发送

3.在我们的案例中,提高吞吐量的最佳方法是什么?我们希望达到的最大吞吐量是1024MBit/s

  • 几点意见:gettimeofday()系统调用的开销会扭曲您的度量

  • 确保以太网端口驱动程序已启用NAPI

  • 如果您希望获得最大吞吐量,请尝试达到零拷贝。如果您一直使用TCP,也许可以使用vmsplice()做一些事情(请参阅:)

  • 为了获得最佳结果,转储TCP,使用带有packet_MMAP选项()的数据包套接字,并实现可靠的UDP协议(例如,对于Win 7对等机的JAVA实现)


  • 祝你好运

    这一次,你根本无法达到1Gbps,因为协议(以太网、IP、TCP)有开销。不过,您应该能够非常接近,但是如果您真的想要高吞吐量,您可能希望更改为UDP而不是TCP,但是您必须自己实现一个轻量级的类似TCP的协议来处理数据包重新排序/丢失。还要注意,1Gbps不是1024Mbps,而是1000Mbps。我知道1Gbps是1000Mbps。我提到的1024Mbit/s是吞吐量限制的最坏情况。通过使用UDP,是否可以实现超过1Gbps的吞吐量?我将研究您的建议。关于零拷贝,AFAIK,我们需要文件描述符来使用sendfile()和splice()对吗?因为在我的例子中,数据已经在内存中了。顺便说一句,对于我的案例,什么是衡量吞吐量的正确/准确方法?vmsplice()是“从虚拟内存拼接”——这正是您需要的。至于度量,如果您发送的数据足够大,那么gettimeofday()的开销在您的情况下可能可以忽略不计,但在其他情况下,我会使用平台的循环计数器—这不需要系统调用和内核上下文切换。同样,在这种特殊情况下,如果send外观运行了很多次迭代,那么它可能无论如何都不重要