Java 提高与GET方法调用并行的批量httprest调用的性能_Java_Concurrency_Parallel Processing_Java Stream_Fork Join

Java 提高与GET方法调用并行的批量httprest调用的性能

java concurrency parallel-processing

Java 提高与GET方法调用并行的批量httprest调用的性能,java,concurrency,parallel-processing,java-stream,fork-join,Java,Concurrency,Parallel Processing,Java Stream,Fork Join,在我开发的应用程序中，我需要执行大量的REST调用。我需要与之交互的REST API资源的体系结构是分层的，如下所示： /api/continents - return list of all Earth's continents /api/continents/{continent_name}/countries - return list of all countries on mentioned continent /api/continents/{continent_name}/coun

在我开发的应用程序中，我需要执行大量的REST调用。我需要与之交互的REST API资源的体系结构是分层的，如下所示：

/api/continents - return list of all Earth's continents
/api/continents/{continent_name}/countries - return list of all countries on mentioned continent
/api/continents/{continent_name}/countries/{country_name}/cities - return list of all cities in mentioned country

不幸的是，这个API没有提供任何方法来获取所有城市，我需要首先获取所有大陆的列表，然后获取每个大陆的所有国家的列表，然后获取每个大陆每个国家的所有城市的列表

首先，我尝试实现从该API获取所有城市的方法，而不是仅通过连续调用进行并行化。诸如此类：

private List<City> getCities() {
    List<Continent> continents = getAllContinents(); //HTTP GET call
    List<Country> countries = new ArrayList<>();
    for (Continent continent: continents) {
        countries.addAll(getAllCountriesOfContinent(continent));
    }
    List<City> cities = new ArrayList<>();
    for (Country country : countries) {
        cities.addAll(getAllCitiesOfCountry(country));
    }
    return cities;
}

private List getCities（）{
列表大陆=getAllContinents（）；//HTTP GET调用
列表国家=新的ArrayList（）；
对于（大陆：大陆）{
countries.addAll（GetAllCountriesofContinentary（大陆））；
}
List cities=new ArrayList（）；
适用于（国家：国家）{
cities.addAll（getAllCitiesOfCountry（country））；
}
回归城市；
}

但这种方法工作太慢（具体执行时间约为7小时）。我决定尝试使用Java并行流和CompletableFuture对其进行改进，并获得了以下方法：

private List<City> getCities() {
    return getAllContinents()
        .parallelStream()
        .map(continent -> getAllCountriesOfContinent(continent))
        .flatMap(feature -> feature.join().parallelStream())
        .map(country -> getAllCitiesOfCountry(country))
        .flatMap(feature -> feature.join().parallelStream())
        .collect(Collectors.toList());
}

private List getCities（）{
返回getAllContinents（）
.parallelStream（）
.map（大陆->获取大陆（大陆）的所有国家）
.flatMap（功能->功能.join（）.parallelStream（））
.map（国家->getAllCitiesOfCountry（国家））
.flatMap（功能->功能.join（）.parallelStream（））
.collect（Collectors.toList（））；
}

其中GetAllCountriesOfContinental和getAllCitiesOfCountry方法返回了CompletableFuture的列表，如下所示：

private CompletableFuture<List<Country>> getAllCountriesOfContinent(Continent continent) {
    return CompletableFuture.supplyAsync(() -> {
        return restClient.getDataFromApi(continent);
    });
}

private CompletableFuture<List<City>> getAllCitiesOfCountry(Country country) {
    return CompletableFuture.supplyAsync(() -> {
        return restClient.getDataFromApi(country);
    });
}

私有CompletableFuture GetAllCountriesofContinument（大陆）{
返回CompletableFuture.SupplySync（（）->{
返回restClient.getDataFromApi（大陆）；
});
}
private Completable Future getAllCitiesOfCountry（国家/地区）{
返回CompletableFuture.SupplySync（（）->{
返回restClient.getDataFromApi（国家/地区）；
});
}

通过这样的重构，我得到了很好的性能提升（执行时间约为25-30分钟）。但我认为，我可以使用Java线程池执行器和线程或ForkJoin框架对其进行更多改进。这些方法会帮助我提高代码的性能吗？或者还有其他一些特殊的技术/算法/框架可以帮助我提高代码的性能吗

这些方法会帮助我提高性能吗

答案是：可能

您可以看到，

parallelStream（）

为您提供了多线程的“默认”实现（在封面下，此操作实际上使用了ForkJoin框架）

换言之：您可以随时后退一步，投入大量时间进行实验，在实验中使用不同的低级方法，并测量相应的结果。是的，最有可能的是，当您花1周时间微调算法时，您应该能够得到比依赖Java提供的“默认实现”更好的结果

但是你的进步有多大，需要多长时间才能达到，这很难预测

因此，真正的答案是：

测量哪个操作需要多长时间，确定整个系统中真正的瓶颈（比如：一个典型的客户应该在每个国家使用一个线程来获取这些城市，还是使用较少的线程更有帮助）

如果可能的话，让RESTAPI得到增强，只需在那里为您提供一个城市列表

长话短说：你必须做出权衡。您可以编写大量自定义代码以获得更好的结果。但是没有人能预先告诉你你将获得什么收益，以及你的“预算”将增加多少“成本”，因为“随着时间的推移编写和维护更复杂的代码”
我觉得多线程并不是这里的合适工具，因为这是一个网络通信问题，而不是计算问题
特别是因为Java缺少协同路由，所以parallelStream可能是一个很好的、合理的选择，可以同时管理多个正在运行的HTTP请求，但它并不是您应该关注的解决方案中最重要的部分

您应该关注的是网络细节，而不是CPU细节。这种情况尤其让我想起了HTTP/2，它应该允许同时执行多个这样的请求。您还应该研究早期版本支持的HTTP管道，但安装起来要复杂得多。
默认情况下CompletableFuture.SupplySync使用fork-join-pool两个问题，您正在使用的端点是否总是快速返回？您在HTTP get调用中使用了什么？@Welsh for HTTP调用我正在使用Apache HTTP客户端，至于API的质量和速度，它是相当一致和稳定的。@GlebKosteiko只是要确保你也确保你在创造你的想法，而不是在那里瓶颈。我很感谢你的快速回归！默认的全局forkjoin池不用于阻塞操作，因此这不是最好的建议。使用自定义执行器并使用不同大小的线程池进行实验也是相当简单的，因此我不确定每周的工作时间是从哪里来的。只要API能够处理，您就可以通过使用更多线程获得相当显著的改进。看见代码几乎相同，应该运行得更快。代码不太正确，但应该非常接近。