Python Tensorflow/XLA:LLVM IR中的并行操作数 我对LVVM IR感兴趣,它是用 -xLaAudipPixIrto到标志启动TysFraseFraseTM程序,特别是我想探讨XLA如何处理并行化。p>

Python Tensorflow/XLA:LLVM IR中的并行操作数 我对LVVM IR感兴趣,它是用 -xLaAudipPixIrto到标志启动TysFraseFraseTM程序,特别是我想探讨XLA如何处理并行化。p>,python,tensorflow,tensorflow-xla,Python,Tensorflow,Tensorflow Xla,我有一个测试程序在一台有56个CPU的机器上运行,在生成的.ll文件中显示了一个并行化函数,正如预期的那样: call void @__xla_cpu_runtime_ParallelForkJoin(i8* %6, i8* %run_options, i8** null, i8** %buffer_table, i64* %prof_counters, i32 56, i64* getelementptr inbounds ([224 x i64], [224 x i64]* @paralle

我有一个测试程序在一台有56个CPU的机器上运行,在生成的
.ll
文件中显示了一个并行化函数,正如预期的那样:

call void @__xla_cpu_runtime_ParallelForkJoin(i8* %6, i8* %run_options, i8** null, i8** %buffer_table, i64* %prof_counters, i32 56, i64* getelementptr inbounds ([224 x i64], [224 x i64]* @parallel_convolution_parallel_dimension_partitions, i32 0, i32 0), i32 2, i8* bitcast (void (i8*, i8*, i8**, i8**, i64*, i64*)* @parallel_convolution to i8*))
查看XLA源代码中的
ParallelForkJoin
函数,这里有一个输入参数
num_partitions
,设置为56

现在我想得到一个类似的结果,它只使用一些可用的CPU,因此我在python程序中添加了以下几行代码(如Tensorflow指南和其他地方所建议的):

但是生成的
.ll
文件完全相同

为什么呢?我原以为指定不同数量的并行线程会导致参数为5(在本例中)而不是56


<> P>一般来说,有没有关于XLA如何提取并行性的文档?

你找到这个问题的答案吗?不是真的。显然,用户不应该处理并行化的细节(我在谷歌组中找到了它),不管怎样,我停止使用XLA,因为一些其他问题。你找到了这个问题的答案吗?不是真的。显然,用户不应该处理并行化的细节(我在谷歌组中找到了一些细节),不管怎样,我还是停止了使用XLA的一些其他问题。
config = tf.ConfigProto()
config.intra_op_parallelism_threads = 5
config.inter_op_parallelism_threads = 5
tf.Session(config=config)