ich ein CUDA-Programm, das Schub verwendet :: reduzieren Summen parallelisieren: zum BeispielKraft CUDA Vorstoß :: reduzieren ohne Parallelität auszuführen
thrust::device_ptr<double> tmp(aux);
double my_sum = thrust::reduce(tmp, tmp + G);
wo double* aux
Punkte zu G
zusammenhängenden Doppeln auf dem Gerät. Ich muss die Laufzeit des gesamten parallelisierten Programms mit einer Version ohne parallele Berechnung vergleichen. Gibt es eine Möglichkeit, thrust::reduce
mit nur einem Thread auf dem Gerät auszuführen? Ein globaler Switch wäre die bequemste Option.