Punkt Produkt - SSE2 vs BLAS

Was ist meine beste Wette für die Berechnung der Skalarprodukt eines Vektors x mit einer großen Anzahl von Vektoren y_i, wobei x und y_i eine Länge von 10k oder so haben.Punkt Produkt - SSE2 vs BLAS

Schieben Sie die y in einer Matrix und verwenden Sie eine optimierte s/dgemv Routine?
Oder vielleicht Handcoding eine SSE2-Lösung (ich habe keine SSE3, nach cpuinfo).

Ich bin nur auf der Suche nach allgemeinen Leitlinien hier, so dass alle Vorschläge nützlich sein werden.
Und ja, ich brauche die Leistung. Danke für jedes Licht.

Quelle

2009-07-07 Anonymous

Welche Compiler verwenden Sie? –

Ich denke, GPUs wurden speziell entwickelt, um Operationen (ua) schnell durchzuführen. Sie könnten also wahrscheinlich DirectX- oder OpenGL-Bibliotheken verwenden, um die Vektoroperationen durchzuführen. D3DXVec2Dot Dadurch sparen Sie auch CPU-Zeit.

Quelle

2009-07-07 04:31:47

D3DXVec2Dot verwendet nicht die GPU. Außerdem sehen Sie nur eine Beschleunigung von GPGPU-Programmen, wenn Sie sehr große Datenmengen transformieren oder sehr teure Programme auf der GPU verwenden. Dies liegt an den Kosten für die Einrichtung der GPU, um die Arbeit zu erledigen, und dann das Ergebnis zurücklesen. Jede Übertragung von Daten zu/von der GPU ist ein sehr kostspieliger Vorgang. – Christopher

Es ist schwer, DirectX's Dot-Produkt zu schlagen, wenn Floats gut genug sind. –

Aktuelle CPUs sind auch für diese Art der Verarbeitung durchaus geeignet. –

Das Handcoding einer SSE2-Lösung ist nicht sehr schwierig und bringt eine schöne Beschleunigung gegenüber einer reinen C-Routine. Wie viel das über eine BLAS-Routine bringt, muss von Ihnen bestimmt werden.

Die größte Beschleunigung wird durch Strukturieren der Daten in ein Format abgeleitet, so dass Sie Datenparallelität und -ausrichtung ausnutzen können.

Quelle

2009-07-07 12:37:42 Christopher

Alternativen für optimierte BLAS-Routinen: