gpu-warp

5calore

2risposta

Rimozione __syncthreads() nella riduzione del livello ordito CUDA

Il seguente somme codice ogni 32 elementi di una matrice al primo elemento di ciascun gruppo 32 elemento: int i = threadIdx.x; int warpid = i&31; if(warpid < 16){ s_buf[i] += s_buf[i+16];__sync

10calore

2risposta

Perché preoccuparsi di sapere su CUDA Warps?

Ho GeForce GTX460 SE, quindi è: 6 SM x 48 core CUDA = 288 core CUDA. È noto che in un Warp contiene 32 thread e che in un blocco contemporaneamente (alla volta) può essere eseguito solo un Warp. Cioè,