Il seguente somme codice ogni 32 elementi di una matrice al primo elemento di ciascun gruppo 32 elemento: int i = threadIdx.x;
int warpid = i&31;
if(warpid < 16){
s_buf[i] += s_buf[i+16];__sync
Ho GeForce GTX460 SE, quindi è: 6 SM x 48 core CUDA = 288 core CUDA. È noto che in un Warp contiene 32 thread e che in un blocco contemporaneamente (alla volta) può essere eseguito solo un Warp. Cioè,