Wie beschleunigt man die Berechnung der Hebelwirkung (Diagonalen der Hutmatrix) in der kleinsten quadratischen Regression?

Für robustes Anpassungsproblem, ich möchte Ausreißer nach Hebelwert finden, der die diagonalen Elemente der 'Hat'-Matrix ist. Lassen Sie die Datenmatrix X (n * p) sein, Hut-Matrix ist:Wie beschleunigt man die Berechnung der Hebelwirkung (Diagonalen der Hutmatrix) in der kleinsten quadratischen Regression?

Hat = X(X'X)^{-1}X'

wo X' die Transponierte X ist.

Wenn n groß ist, hat Hat-Matrix eine riesige (n * n). Die Berechnung ist also zeitaufwendig. Ich frage mich, gibt es einen schnelleren Weg, um nur die Hebelwerte zu berechnen?

Quelle

2016-12-02 areslp

Ich nur Ihre Antwort roh. Es ist wirklich klar und hilfreich. Vielen Dank! – areslp

Sie haben keine Programmiersprache angegeben, deshalb werde ich mich nur auf den Algorithmusbereich konzentrieren.

Wenn Sie Ihr Problem der kleinsten Quadrate orthogonalen Methoden wie QR-Faktorisierung und SVD angepasst haben, dann hat Hut-Matrix in einfacher Form. Sie können meine Antwort Compute projection/hat matrix via QR factorization, SVD (and Cholesky factorization?) für explizite Form der Hut-Matrix (in LaTeX geschrieben) überprüfen. Beachten Sie, OP dort will komplette Hut-Matrix, also habe ich nicht gezeigt, wie man nur die diagonalen Elemente effizient berechnet. Aber es ist wirklich unkompliziert. Beachten Sie, dass die Hut-Matrix für orthogonale Methoden mit einem Formular QQ' endet. Die Diagonalen sind zeilenweise inneres Produkt. Kreuzprodukt zwischen verschiedenen Reihen gibt Off-Diagonalen aus. In R kann ein solches zeilenweises inneres Produkt als rowSums(Q^2) berechnet werden.

Meine Antwort How to compute diag(X %% solve(A) %% t(X)) efficiently without taking matrix inverse? ist in einer allgemeineren Einstellung. Hut-Matrix ist ein Sonderfall mit A = X'X. Diese Antwort konzentriert sich auf die Verwendung der dreieckigen Faktorisierung wie Cholesky-Faktorisierung und LU-Faktorisierung und zeigt, wie nur diagonale Elemente berechnet werden. Sie werden colSums statt rowSums hier sehen, weil die Hut-Matrix mit einem Formular Q'Q endet.

Zum Schluss möchte ich etwas Statistisches hervorheben. Eine hohe Hebelwirkung allein signalisiert keine Ausreißer. Die Kombination aus hoher Hebelwirkung und hohem Restwert (d. H. Hoher Cook-Abstand) signalisiert Ausreißer.

Quelle

2016-12-10 14:29:28

Wie beschleunigt man die Berechnung der Hebelwirkung (Diagonalen der Hutmatrix) in der kleinsten quadratischen Regression?

Antwort

Verwandte Themen