Ho una certa familiarità con il visual profiler CUDA e il foglio di calcolo sull'occupazione, anche se probabilmente non sto sfruttando il più possibile. Profiling & L'ottimizzazione del codice CUDA non è come la profilatura del codice & per l'ottimizzazione del codice che gira su una CPU. Quindi spero di imparare dalle tue esperienze su come ottenere il massimo dal mio codice.Come si profila e si ottimizzano i kernel CUDA?
C'è stato un post che cercava il codice più veloce possibile per identificare self numbers e ho fornito un CUDA implementation. Non sono soddisfatto del fatto che questo codice sia il più veloce possibile, ma non riesco a capire sia le domande giuste che lo strumento da cui ottenere le risposte.
Come identificate i modi per rendere più veloci i kernel di CUDA?
Grazie, Tom. Questa presentazione è disponibile per il download? –
È lo stesso a cui mi sono collegato prima! http://www.nvidia.com/content/GTC/videos/GTC09-1086.flv http://www.nvidia.com/content/GTC/videos/GTC09-1086.mp4 – Tom
Grazie, Tom. Non ho visto la tua risposta al mio commento l'altro giorno, immagino. –