2017-03-19 1 views
0

Hallo Leute, ich habe eine Frage zu LASSO. Ich werde verrückt, weil es etwas ist, das ich nicht nur nach meinem Hintergrund lösen kann. Ich bin Biologe. Kurz habe ich LASSO mit der R-Bibliothek "bestraft". Insbesondere nutzte ich die opt1D Funktion mit ungefähr 500 Simulationen auf einem Datenrahmen (numerisch) von ungefähr 30 Spalten, die meine Biomarker (Genexpression) sind, die ich testen möchte, und 3000 Reihen von Menschen, von denen ungefähr 50 Tumore und alle sind andere sind Normale. Leider sind bei Verwendung der L1-Regularisierung alle und wirklich alle Koeffizienten von 500 Simulationen 0. Wenn ich die L2-Matrix von Koeffizienten überprüfe, sind sie nahe bei 0. Nun kann ich nicht meinen, dass nicht alle meine Biomarker zwischen Normalen und Tumore. Ich weiß nicht, ob das, was ich getan habe, alles ist, um auf das diskriminierende Potenzial meiner Moleküle zu prüfen. Gibt es noch etwas, was ich tun kann, um ins Detail zu gehen, um zu verstehen, warum sie alle 0 sind, und kann ich noch etwas anderes tun, um zu überprüfen, dass sie wirklich nicht in der Lage sind, meine Kohorte zu stratifizieren?LASSO-Koeffizienten gleich 0 mit opt1D

Vielen Dank im Voraus

+0

Ich bin nicht vertraut mit diesem Paket, aber ich würde vermuten, dass es etwas mit übermäßigen Regularisierungseinstellungen zu tun hat. Wenn Sie die Grenze zu hoch setzen, geben sowohl L1 als auch L2 Null (oder nahe Null) Koeffizienten. –

+0

Vielen Dank David. Aber wie kann ich diese Grenzen manuell festlegen? – Bfu38

Antwort

1

Haben Sie passende Daten ohne penalization prüfen, bevor Regularisierung verwendet? Die Regularisierung von L1 führt natürlich zu einer signifikanten Anzahl von Nullkoeffizienten.

Als eine Randnotiz würde ich zuerst PCA/PCoA ausführen und sehen, ob Ihre Gene nach Ihrer Klassenvariablen getrennt sind oder nicht. Dies könnte Ihnen Zeit sparen und Ihnen erlauben, Ihren Datensatz auf die Gene zu kürzen, die die größten Unterschiede innerhalb Ihrer Klassenvariablen aufweisen. Auch wenn Sie relativ wenig Erfahrung mit R haben, würde ich vorschlagen, ein lineares Modellierungspaket wie Limma zu verwenden, da es eine ausgezeichnete Dokumentation und viele Beispiele bietet, die einfach zu befolgen sind.

+0

Ich habe kürzlich die Verteilungen meiner Gene in Tumoren im Vergleich zu normalen Patienten untersucht und leider überschneiden sie sich sehr, was bedeutet, dass zwischen den beiden Klassen kein wesentlicher Unterschied besteht. Das ist der Grund, warum LASSO-Koeffizienten 0 sind. – Bfu38

Verwandte Themen