Performance 下载文件时CPU利用率高_Performance_Http_Erlang_Elixir

Performance 下载文件时CPU利用率高

performance http erlang elixir

Performance 下载文件时CPU利用率高,performance,http,erlang,elixir,Performance,Http,Erlang,Elixir,例如，当使用Erlang的httpc通过HTTP下载文件时，CPU利用率要比使用curl或wget高得多。我用来测量下载速度的代码可以在这篇文章的底部看到 CPU利用率高是个问题，尤其是在低端设备上。我在ARM SoC上运行Erlang，它只比第一个Raspberry PI稍微强大一点，这段代码导致100%的CPU利用率和仅6.1 MiB/s的下载速度。使用curl和wget，CPU利用率保持在略低于100%的水平，并且它几乎完全利用了网络接口（在100 MBit/s网络接口上为10.7 MB

例如，当使用Erlang的

httpc

通过HTTP下载文件时，CPU利用率要比使用curl或wget高得多。我用来测量下载速度的代码可以在这篇文章的底部看到

CPU利用率高是个问题，尤其是在低端设备上。我在ARM SoC上运行Erlang，它只比第一个Raspberry PI稍微强大一点，这段代码导致100%的CPU利用率和仅6.1 MiB/s的下载速度。使用curl和wget，CPU利用率保持在略低于100%的水平，并且它几乎完全利用了网络接口（在100 MBit/s网络接口上为10.7 MBit/s或85.6 MBit/s）

我尝试使用其他HTTP库，包括ibrowse和hackney，但同样的问题仍然存在。我猜想这与Erlang的套接字性能有关，但我可能错了。所以我的问题是，到底是什么原因导致下载速度慢，有什么解决办法吗？我知道有一些库使用libcurl，因此可能不会有同样的问题，但我不希望使用任何使用NIFs的库

defmodule DownloadPerformanceTest do
  @testfile 'http://speed.hetzner.de/100MB.bin'
  @filesize 104857600
  @save_to '/dev/null'

  def test() do
    Application.start(:inets)
    then = :erlang.system_time(:micro_seconds)
    {:ok, :saved_to_file} = :httpc.request(:get, {@testfile, []}, [], [{:stream, @save_to}])
    now = :erlang.system_time(:micro_seconds)
    diff = now - then
    bw = bandwidth_to_human_readable(@filesize, diff)
    IO.puts "Download took #{:erlang.trunc(diff / 1_000_000)} seconds, average speed: #{bw}"
  end

  defp bandwidth_to_human_readable(bytes, microseconds) do
    bytes_per_second = bytes / (microseconds / 1000000)
    exponent = :erlang.trunc(:math.log2(bytes_per_second) / :math.log2(1024))
    prefix = case exponent do
               0 -> {:ok, ""}
               1 -> {:ok, "Ki"}
               2 -> {:ok, "Mi"}
               3 -> {:ok, "Gi"}
               4 -> {:ok, "Ti"}
               5 -> {:ok, "Pi"}
               6 -> {:ok, "Ei"}
               7 -> {:ok, "Zi"}
               8 -> {:ok, "Yi"}
               _ -> {:error, :too_large}
             end
    case prefix do
      {:ok, prefix} ->
        quantity = Float.round(bytes_per_second / :math.pow(1024, exponent), 2)
        unit = "#{prefix}B/s"
        "#{quantity} #{unit}"
      {:error, :too_large} ->
        "#{bytes_per_second} B/s"
    end
  end
end

回到过去，三个明确的问题，我能够确定

您使用的是一个受外部因素影响的远程资源，该外部因素会生成基准数字。因此，为了进行测试，我改为使用本地资源
其次，除了hackney之外，没有其他库将有效负载流式传输到文件。虽然保存到
```
/dev/null
```
，但保存文件还是有成本的
测试需要运行多次（可能是三次）

有一次，我在

下载\u loop\u hackney（）

中删除了保存操作，hackney是最快的

defp download_loop_hackney(client, file) do
    case :hackney.stream_body(client) do
      {:ok, _result} ->

        #IO.binwrite(file, result)
        download_loop_hackney(client, file)
      :done ->
        :ok = File.close(file)
    end
  end

因此，基准数字如下所示

download_http: download took 0 seconds, average speed: 211.05 MiB/s
download_ibrowse: download took 0 seconds, average speed: 223.15 MiB/s
download_hackney: download took 0 seconds, average speed: 295.83 MiB/s
download_tcp: download took 0 seconds, average speed: 595.84 MiB/s

你有没有试过只用一个套接字操作就可以做到这一点？我已经和httpc合作过很多次，发现它有一些特殊之处——但我不知道是什么导致http下载时CPU使用率高。根据我的经验，Erlang的套接字性能非常好，即使在受限制的硬件上也是如此，但我几乎总是编写纯套接字进程，而不使用其他协议库，因此我不知道是否存在对HTTP数据的低效挖掘（可能HTTP块和头等都是以相对昂贵的方式分解的？）@zxq9实际上，使用：gen_tcp直接允许我以9.81 MiB/s的速度下载，而使用curl则可以以10.5 MiB/s的速度下载。我仍然希望使用一个合适的HTTP库，而不是重新发明轮子，但似乎几乎所有维护良好的库都基于hackney或ibrowse。在Erlang世界中，我们最近才真正开始关注HTTP，实际上，这只是几个地方——许多Erlang工作通常与web无关，这也延伸到了文化。由于这个原因，我们从未真正深入研究过原生Erlang web库、XML解析或HTML解析的疯狂。我想这可能也适用于HTTP头的本机解析、分块等。作为字符串，而不是在二进制和原子之间切换，以及二进制到字符串转换等。实际上，我已经编写了多次一次性HTTP客户端和服务器。在这些领域中，用Erlang编写它是如此简单，以至于您只需做一次，就忘记了它曾经是一个问题——然后再也不要将它打包为lib。部署也是同样的问题：运行时和环境已经处理了Docker类型的问题，所以我们忘记了这些问题是人们期望打包解决方案解决的问题。插座也一样。大多数人不知道套接字编程，所以HTTP被广泛使用，但对我们来说，在套接字上编程二进制协议比处理HTTP等更容易。@Dogbert在我的测试中，hackney甚至更慢：当然，这也可能是由于我的实现，而不是hackney固有的任何低效。关于保存到

/dev/null

导致的开销，这一点很好，尽管只有

下载\u tcp

没有存储内容。根据您获得的下载速度判断，我假设“本地资源”是指文件是从本地主机下载的。这意味着使用的是环回设备，而不是真正的网络接口。这不是我想要测量的，因为高CPU利用率是通过使用网络设备强加的。