有没有办法在CUDA内核中并行化独立for循环？_Cuda - Fatal编程技术网

有没有办法在CUDA内核中并行化独立for循环？

cuda

有没有办法在CUDA内核中并行化独立for循环？,cuda,Cuda,我正在尝试在CUDA内核中并行化for循环。例如，下面是一个简单的内核示例： __global__ void sample_kernel(int n, float *x, float *y) { for (int i = blockIdx.x * blockDim.x + threadIdx.x; i < n; i += blockDim.x * gridDim.x) { for (int j = 0; j < 10; ++j) { y[10 * i +

我正在尝试在CUDA内核中并行化for循环。例如，下面是一个简单的内核示例：

__global__ void sample_kernel(int n, float *x, float *y) {
  for (int i = blockIdx.x * blockDim.x + threadIdx.x; i < n; i += blockDim.x * gridDim.x) {
    for (int j = 0; j < 10; ++j) {
        y[10 * i + j] = j * x[i];
    }
  }
}

\uuuuu全局\uuuuu无效样本\u内核（int n，float*x，float*y）{
对于（int i=blockIdx.x*blockDim.x+threadIdx.x；i


因为j
的循环是独立的，所以我也想并行化这个循环。有什么可能的方法可以做到这一点吗
 在CUDA中，线程执行工作。向一组线程发出指令，在CUDA的情况下，该线程由32个线程组成。这意味着，在理论上，您可以在硬件的限制范围内并行化几乎任何您想要的代码
在您的例子中，现在这样做的方式是，一个线程为外循环执行网格跨步，为外循环的每个迭代执行网格跨步，为内循环的每个迭代执行网格跨步
只要嵌套循环不超过三个，完成所要完成任务的标准方法是利用CUDA中网格是三维的这一事实（尽管可以使用1D网格），并执行嵌套网格跨步：
__global__ void sample_kernel(int n, float *x, float *y) {
  for (int i = blockIdx.y * blockDim.y + threadIdx.y; i < n; i += blockDim.y * gridDim.y) {
    for (int j = blockIdx.x * blockDim.x; j < 10; j += blockDim.x * gridDim.x) {
        y[10 * i + j] = j * x[i];
    }
  }
}

\uuuuu全局\uuuuu无效样本\u内核（int n，float*x，float*y）{
对于（int i=blockIdx.y*blockDim.y+threadIdx.y；i

当然，这不是唯一的方法：您可以使用一维网格实现相同的效果。为此，您只需以不同的方式分割工作，而不是执行常规的网格步长




[ms office]相关文章推荐



                                                        
Ms office 创建用于操作设计时表单的Infopath 2007加载项
ms-office 
Ms office Powerpivot 2013+；数据模型表名
ms-office 
Ms office Microsoft Outlook 2010-用于指示电子邮件是发送给我还是CCed给我的自定义字段
ms-office 
Ms office Microsoft Office 2013应用程序构建
ms-office 
Ms office Sharepoint在线文档共享API
ms-officesharepoint-2013office365 
Ms office 返回Office 365 Mail REST API预览中的所有电子邮件元数据
ms-officeodataoffice365 
Ms office 通过API搜索Office 365邮件
ms-office 
Ms office 是否检测OpenXmls的正确文件扩展名？
ms-office 
Ms office 使用64位office 2013，“；Microsoft.ACE.OLEDB.12.0“；无法在64位SQL server上加载
ms-office 
Ms office 在Excel 2016 for Windows中提供外接程序
ms-officeoffice-js 
Ms office Microsoft Office如何不需要.NET 3.5或4.5，而VSTO加载项却需要它们？
ms-office 
                                       





随机文章推荐



                                                        
Ide 未使用ANSI字符集中的字符
ide 
Ide IntelliJ 12代码覆盖率在GWT项目的编辑器中不起作用
ideintellij-idea 
Ide komodo编辑光标'；介于'之间；不是'；关于'；？
ide 
Ide Aptana Studio:：取消缩进代码块
ideformatting 
Ide 如何更改升华文本3中的文件夹和菜单字体大小？
idesublimetext3 
如何在Dr.Racket IDE中清除解释器屏幕？
ideschemelispracket 
Ide 如何阻止Android Studio删除尾随空格？
ideandroid-studio 
Ide 向主机公开飘忽不定的Virtualenv依赖项
idevagrantvirtualbox 
Ide 如何在WebStorm中创建新文件时更改显示的文件模板？
ideeditorphpstormwebstorm 
使用Rstudio作为其他编程语言（Stata）的IDE
idestata 
Ide 将光标移动到“后”的新行；将选择发送到终端"；基尼行动
ide 
Ide 在Eclipse中为ATmega生成1073741502时出错
ideembedded


                                        

                                        
                                        


                                                
                                                        [cuda]相关推荐
                                                        
使用CUDA时如何测量每个块的执行时间？
									Cuda
							 									Parallel Processing
							 
Cuda 串行CPU与GPU代码
									Cuda
							 									Opencl
							 
简单复制过程中cudaMemcpy抛出错误
									Cuda
							 
CUDA nvcc慢速主机代码
									Cuda
							 
Cuda LNK1104:无法打开文件'；glut32.lib'；
									Cuda
							 
Cuda 如何使用OpenACC优化矩阵乘法？
									Cuda
							 									Opencl
							 
CUDA示例实用程序库
									Cuda
							 
创建cuda上下文管理器失败
									Cuda
							 
使用Mathematica CUDADot时提高GPU的利用率？
									Cuda
							 									Wolfram Mathematica
							 
CUDA 5.5-可重定位设备代码导致无法解析外部符号
									Cuda
							 
/从其他应用程序配置无法识别我的CUDA环境（Ubuntu12.10）
									Cuda
							 
Cuda 如何为更高的计算版本强制生成cubin文件
									Cuda
							 
cublasSetVector（）与cudaMemcpy（）的比较
									Cuda
							 
CUDA标量和SIMD视频指令的效率
									Cuda
							 
在内核运行之间清除CUDA共享内存的最简单方法
									Cuda
							 
在cuStreamDestroy的Theano/CUDA出口处发生碰撞
									Cuda
							 
Cuda 特斯拉k20m与Direct3D 11的互操作性
									Cuda
							 
以无GPU的非root用户身份安装CUDA
									Cuda
							 									Installation
							 
如何在cuda中声明静态变量
									Cuda
							 
如何在CUDA中使用64位指针编写指针跟踪基准测试？
									Cuda
							 
如何使用GTX1080为Tensorflow设置CUDA参数？
									Cuda
							 									Tensorflow
							 
试图在Ubuntu 18.04上安装CUDA 9.2
									Cuda
							 
在Jetson TX2上构建和运行的Cuda应用程序能否在Jetson Xavier上运行？
									Cuda
							 
Cuda 如何与多个块和线程共享单个阵列？
									Cuda
							 
内联PTX CUDA中向量的简单添加
									Cuda
							 
在Google Colab上执行CUDA程序时如何链接库？
									Cuda
							 									Google Colaboratory
							 
什么'；这是一个将Cudamaloc归零的好方法；d数据？
									Cuda
							 
Cuda 分配给多处理器的活动块集的行为是什么？
									Cuda
							 
Cuda __主机\设备\函数调用重载函数
									Cuda
							 
Cuda 统一内存迁移可以使用NVLink吗？
									Cuda
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Heroku
Biztalk
Yii2
Electron
Cors
Compiler Construction
Tags
Twilio
Clearcase
Go
Here Api
Delphi
Swing
Swiftui
Gulp
Visual Studio Code
Octave
Antlr4
Embedded
Bash
User Interface
Dynamic
Activemq
Sublimetext3
Solr
Map
Netty
Sitecore
Facebook Graph Api
Ibm Mobilefirst
Postgresql
Winapi
Graphics
Vhdl
Cypress
Next.js
Caching
Loopbackjs
Curl
Microservices
Jpa
Magento
Pytorch
Jmeter
Jira
Bison
C++
Spring Batch
Ssis
Dynamics Crm
Internet Explorer 8
Ruby On Rails 3
Mod Rewrite
Internet Explorer
Generics
Shell
Swift
Performance
Dialogflow Es
Text
Telegram
Opengl Es
Autodesk Forge
Webstorm
Rss
Google Colaboratory
Binding
Vb6
Objective C
Sublimetext2
Reference
Exchange Server
Ssrs 2008
Compilation
Asp.net Mvc 2
Botframework
Mongodb
EmptyTag
Model View Controller
Sparql
Syntax
Memory Leaks
Jvm
Linker
Hyperledger Fabric
Jboss
Cryptography
Ibm Cloud
Actionscript
Servlets
Amazon Cloudformation
F#
Triggers
Sorting
Numpy
Dictionary
Deep Learning
Rdf
Spotify
Browser
Drupal 6
Netbeans
Push Notification
Directx
Sass
Routing
Prolog
Speech Recognition
Nativescript
Workflow
Nginx
Blockchain
Core Data
Ipad
Ms Office
Laravel 4
Unity3d
Model
Openshift
Xamarin.ios
Windows Phone 7
Zsh
Sencha Touch 2
Testng
Error Handling
Db2
Sprite Kit
Image Processing
Kibana
Terminal
Matlab
Plsql
Postman
Dotnetnuke
Ant
Latex
Puppet
Properties
Parallel Processing
Jenkins
Vim
Opengl
Oauth 2.0
Optimization
Entity Framework
Fonts
Api
Authentication
Phpstorm
Mercurial
Windows 7
Sencha Touch
Pip
Excel Formula
Datatables
Youtube Api
Rx Java
Oracle11g
Automated Tests
Awk
Angular
Pyspark
Sip
Gdb
Jaxb
Cloud
Log4j
Interface
Java Me
Erlang
Rally
Wolfram Mathematica
Google Visualization
Jupyter Notebook
Parameters
Mapping
Sockets
Testing
Corda
Quickbooks
C# 3.0
Vbscript
Forms
Geolocation
Monitoring
Xquery
Scrapy
Material Ui
Pointers
Azure Devops
D3.js
Jwt
Activerecord
Ada
Apache Pig
Service
Visual Studio 2012
Cocoa
Visual Studio 2013
Android Ndk
Notepad++


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网