Ich habe eine Excel-Tabelle von 15200 Zeilen, entsprechend einem Baum für seine Strukturen analysiert. Ich habe alle Strukturen in Spalten (48 Strukturen), sie wurden auf jedem Baum gezählt. zum Beispiel hat der Baum 12607 drei Strukturen CV11, eine Struktur IN12 und keine (0) des Rests aller Strukturen. So sieht die Tabelle aus wie eine riesige Tabelle mit vielen 0 und einigen Zahlen des Auftretens von Strukturen auf den Bäumen. Die allerletzte Spalte ist der Wert, der dem Baum entsprechend den darauf gefundenen Strukturen gegeben wird (jede Struktur gibt dem Baum durch seine Anwesenheit eine bestimmte Anzahl Punkte).Vergleich von zwei Datenrahmen
Die Frage ist: Gibt es einige Strukturen oder Kombinationen von Strukturen, die dem Baum einen hohen Wert verleihen? Natürlich können wir nach dem Wert jeder Struktur sehen, welcher Wert höher ist als der der anderen (zB: Struktur CV11 hat einen Wert von 15, Struktur IN12 hat einen Wert von 4). Aber was ich wissen möchte, ist, wenn wir alle Bäume mit einem höheren Endwert als 100 nehmen (wir erstellen einen neuen Datenrahmen "data100"), und wir vergleichen mit Bäumen mit einem Endwert unter 100 (wir erstellen einen anderen Datenrahmen) data0 "), können wir einen signifikanten Unterschied in der Anzahl und im Auftreten von Strukturen finden, die auf diesen Bäumen gefunden werden? Weil die Struktur mit hohem Wert möglicherweise nur auf den Bäumen mit einem Wert unter 100 gefunden wird; Zum Beispiel erlaubt diese Struktur nicht, dass andere Strukturen in demselben Baum gefunden werden.
Voilà, ich hoffe, ich habe genug Details gegeben ... Wenn Sie eine Idee oder einen Vorschlag zur Lösung dieses Problems haben .. wird es großartig sein!
Unten ist mein Skript.
> data100
CV11 CV12 CV13 CV14 CV15 CV21 CV22 CV23 CV24 CV25 CV26 CV31 CV32 CV33 CV41 CV42 CV43 CV44 CV51 CV52 IN11 IN12 IN13
1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
2 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
11 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
12 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
13 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
14 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
15 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
IN14 IN21 IN22 IN23 IN31 IN32 IN33 IN34 BA11 BA12 BA21 DE11 DE12 DE13 DE14 DE15 GR11 GR12 GR13 GR21 GR22 GR31 GR32
1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
2 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0
3 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
4 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
6 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0
7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
11 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 2 0 0 0 0 0
12 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 3 0 0
13 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 3 0 0
14 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0
15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
EP11 EP12 EP13 EP14 EP21 EP31 EP32 EP33 EP34 EP35 NE11 NE12 NE21 OT11 OT12 OT21 OT22 ecoval
1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 56
3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 10
4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 10
5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4
6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 24
7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
11 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 18
12 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 63
13 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 77
14 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 54
15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 20
[ reached getOption("max.print") -- omitted 60749 rows ]
> sortdata100<-data100[order(data100[,64],decreasing=T),]
> rsortdata100<-sortdata100[sortdata100$ecoval>100,]
> rsortdata100<-na.omit(rsortdata100)#181 lignes
> rsortdata100
CV11 CV12 CV13 CV14 CV15 CV21 CV22 CV23 CV24 CV25 CV26 CV31 CV32 CV33 CV41 CV42 CV43 CV44 CV51 CV52 IN11 IN12 IN13
1291 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1083 0 4 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
3919 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0
14685 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
4021 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
5452 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
14686 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0
4022 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0
1013 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
2895 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
4719 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0
682 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
3444 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1299 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
2713 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0
IN14 IN21 IN22 IN23 IN31 IN32 IN33 IN34 BA11 BA12 BA21 DE11 DE12 DE13 DE14 DE15 GR11 GR12 GR13 GR21 GR22 GR31 GR32
1291 0 0 0 0 0 0 0 0 30 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1083 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
3919 0 0 1 0 2 0 0 0 2 0 0 0 3 0 0 0 0 0 0 11 0 0 0
14685 0 0 0 0 0 0 0 0 11 0 0 0 0 0 0 0 0 0 0 0 0 0 0
4021 0 0 0 0 0 0 0 0 11 0 0 0 0 0 0 0 0 0 0 0 0 0 0
5452 0 0 1 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0
14686 0 0 0 0 0 0 0 0 11 0 0 0 0 0 0 0 0 0 0 0 0 0 2
4022 0 0 0 0 0 0 0 0 11 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1013 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
2895 0 0 0 1 0 0 0 0 4 0 0 3 0 4 3 0 0 0 0 0 0 0 0
4719 0 0 0 0 0 0 0 0 10 0 0 0 0 0 0 0 0 0 0 0 0 0 0
682 0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 0 0 0 0 0 0 0 0
3444 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1299 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0
2713 0 0 0 2 0 3 0 0 2 0 0 0 1 5 1 0 0 0 0 0 0 0 0
EP11 EP12 EP13 EP14 EP21 EP31 EP32 EP33 EP34 EP35 NE11 NE12 NE21 OT11 OT12 OT21 OT22 ecoval
1291 0 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1192
1083 0 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 424
3919 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 380
14685 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 370
4021 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 358
5452 0 0 0 0 0 0 1 0 0 11 0 0 0 0 1 0 0 356
14686 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 354
4022 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 346
1013 0 8 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 326
2895 0 1 0 0 0 1 0 1 0 0 0 0 0 0 0 1 0 325
4719 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 324
682 0 0 0 6 0 0 0 0 0 0 0 0 0 0 0 0 0 311
3444 0 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 306
1299 0 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 302
2713 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 302
[ reached getOption("max.print") -- omitted 166 rows ]
> data0<-sortdata100[sortdata100$ecoval<100,]
> data0<-na.omit(data0)
> data0
CV11 CV12 CV13 CV14 CV15 CV21 CV22 CV23 CV24 CV25 CV26 CV31 CV32 CV33 CV41 CV42 CV43 CV44 CV51 CV52 IN11 IN12 IN13
4728 0 0 0 1 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0
5339 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
11766 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
796 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
3561 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
10581 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
10618 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 1 0 0 0 0 0
14376 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
14389 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0
790 0 0 0 1 0 0 0 0 1 0 0 2 0 0 0 0 0 0 0 0 1 0 0
3974 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
4739 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 1 0 0 0 0 0 0
156 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
2740 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
2950 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0
IN14 IN21 IN22 IN23 IN31 IN32 IN33 IN34 BA11 BA12 BA21 DE11 DE12 DE13 DE14 DE15 GR11 GR12 GR13 GR21 GR22 GR31 GR32
4728 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
5339 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
11766 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0
796 1 1 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
3561 0 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0
10581 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
10618 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
14376 1 0 0 0 0 0 0 0 1 0 0 0 0 2 0 0 0 0 0 0 0 0 0
14389 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 1 0 0 0 0 0 0 0
790 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0
3974 0 0 0 0 0 0 0 0 1 0 0 0 4 0 0 0 1 0 0 0 0 0 0
4739 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
156 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0
2740 0 0 0 0 0 0 0 0 0 0 0 0 0 6 2 0 0 0 0 0 0 0 0
2950 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
EP11 EP12 EP13 EP14 EP21 EP31 EP32 EP33 EP34 EP35 NE11 NE12 NE21 OT11 OT12 OT21 OT22 ecoval
4728 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 99
5339 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 99
11766 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 99
796 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 98
3561 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 98
10581 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 98
10618 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 98
14376 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 98
14389 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 98
790 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 97
3974 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 97
4739 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 1 0 97
156 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 96
2740 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 96
2950 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 96
[ reached getOption("max.print") -- omitted 14984 rows ]
Leider nicht klar, mir geben sollte, lesen Sie bitte die Informationen über [wie eine gute Frage] (http: // stackoverflow.com/help/how-to-ask) und wie man ein [reproduzierbares Beispiel] gibt (http://stackoverflow.com/questions/5963269). Dies wird es anderen sehr erleichtern, Ihnen zu helfen. – zx8754