2017-09-11 4 views
-1

Ich habe eine Excel-Tabelle von 15200 Zeilen, entsprechend einem Baum für seine Strukturen analysiert. Ich habe alle Strukturen in Spalten (48 Strukturen), sie wurden auf jedem Baum gezählt. zum Beispiel hat der Baum 12607 drei Strukturen CV11, eine Struktur IN12 und keine (0) des Rests aller Strukturen. So sieht die Tabelle aus wie eine riesige Tabelle mit vielen 0 und einigen Zahlen des Auftretens von Strukturen auf den Bäumen. Die allerletzte Spalte ist der Wert, der dem Baum entsprechend den darauf gefundenen Strukturen gegeben wird (jede Struktur gibt dem Baum durch seine Anwesenheit eine bestimmte Anzahl Punkte).Vergleich von zwei Datenrahmen

Die Frage ist: Gibt es einige Strukturen oder Kombinationen von Strukturen, die dem Baum einen hohen Wert verleihen? Natürlich können wir nach dem Wert jeder Struktur sehen, welcher Wert höher ist als der der anderen (zB: Struktur CV11 hat einen Wert von 15, Struktur IN12 hat einen Wert von 4). Aber was ich wissen möchte, ist, wenn wir alle Bäume mit einem höheren Endwert als 100 nehmen (wir erstellen einen neuen Datenrahmen "data100"), und wir vergleichen mit Bäumen mit einem Endwert unter 100 (wir erstellen einen anderen Datenrahmen) data0 "), können wir einen signifikanten Unterschied in der Anzahl und im Auftreten von Strukturen finden, die auf diesen Bäumen gefunden werden? Weil die Struktur mit hohem Wert möglicherweise nur auf den Bäumen mit einem Wert unter 100 gefunden wird; Zum Beispiel erlaubt diese Struktur nicht, dass andere Strukturen in demselben Baum gefunden werden.

Voilà, ich hoffe, ich habe genug Details gegeben ... Wenn Sie eine Idee oder einen Vorschlag zur Lösung dieses Problems haben .. wird es großartig sein!

Unten ist mein Skript.

> data100 
     CV11 CV12 CV13 CV14 CV15 CV21 CV22 CV23 CV24 CV25 CV26 CV31 CV32 CV33 CV41 CV42 CV43 CV44 CV51 CV52 IN11 IN12 IN13 
1  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
2  0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
3  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 
4  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 
5  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 
6  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 
7  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
8  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
9  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
10  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
11  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
12  0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 
13  0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
14  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
15  0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
     IN14 IN21 IN22 IN23 IN31 IN32 IN33 IN34 BA11 BA12 BA21 DE11 DE12 DE13 DE14 DE15 GR11 GR12 GR13 GR21 GR22 GR31 GR32 
1  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
2  0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 
3  0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 
4  0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 
5  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
6  0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 
7  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
8  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
9  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
10  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
11  0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 2 0 0 0 0 0 
12  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 3 0 0 
13  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 3 0 0 
14  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 
15  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
     EP11 EP12 EP13 EP14 EP21 EP31 EP32 EP33 EP34 EP35 NE11 NE12 NE21 OT11 OT12 OT21 OT22 ecoval 
1  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  0 
2  1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  56 
3  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  10 
4  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  10 
5  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  4 
6  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  24 
7  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  0 
8  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  0 
9  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  0 
10  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  0 
11  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  18 
12  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  63 
13  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  77 
14  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  54 
15  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  20 
[ reached getOption("max.print") -- omitted 60749 rows ] 
> sortdata100<-data100[order(data100[,64],decreasing=T),] 

> rsortdata100<-sortdata100[sortdata100$ecoval>100,] 
> rsortdata100<-na.omit(rsortdata100)#181 lignes 
> rsortdata100 
     CV11 CV12 CV13 CV14 CV15 CV21 CV22 CV23 CV24 CV25 CV26 CV31 CV32 CV33 CV41 CV42 CV43 CV44 CV51 CV52 IN11 IN12 IN13 
1291  0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
1083  0 4 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
3919  0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 
14685 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 
4021  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 
5452  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
14686 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 
4022  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 
1013  0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
2895  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
4719  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 
682  0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 
3444  0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
1299  0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 
2713  0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 
     IN14 IN21 IN22 IN23 IN31 IN32 IN33 IN34 BA11 BA12 BA21 DE11 DE12 DE13 DE14 DE15 GR11 GR12 GR13 GR21 GR22 GR31 GR32 
1291  0 0 0 0 0 0 0 0 30 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
1083  3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
3919  0 0 1 0 2 0 0 0 2 0 0 0 3 0 0 0 0 0 0 11 0 0 0 
14685 0 0 0 0 0 0 0 0 11 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
4021  0 0 0 0 0 0 0 0 11 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
5452  0 0 1 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 
14686 0 0 0 0 0 0 0 0 11 0 0 0 0 0 0 0 0 0 0 0 0 0 2 
4022  0 0 0 0 0 0 0 0 11 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
1013  0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
2895  0 0 0 1 0 0 0 0 4 0 0 3 0 4 3 0 0 0 0 0 0 0 0 
4719  0 0 0 0 0 0 0 0 10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
682  0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 0 0 0 0 0 0 0 0 
3444  0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
1299  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 
2713  0 0 0 2 0 3 0 0 2 0 0 0 1 5 1 0 0 0 0 0 0 0 0 
     EP11 EP12 EP13 EP14 EP21 EP31 EP32 EP33 EP34 EP35 NE11 NE12 NE21 OT11 OT12 OT21 OT22 ecoval 
1291  0 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1192 
1083  0 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 424 
3919  1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 380 
14685 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 370 
4021  0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 358 
5452  0 0 0 0 0 0 1 0 0 11 0 0 0 0 1 0 0 356 
14686 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 354 
4022  0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 346 
1013  0 8 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 326 
2895  0 1 0 0 0 1 0 1 0 0 0 0 0 0 0 1 0 325 
4719  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 324 
682  0 0 0 6 0 0 0 0 0 0 0 0 0 0 0 0 0 311 
3444  0 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 306 
1299  0 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 302 
2713  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 302 
[ reached getOption("max.print") -- omitted 166 rows ] 
> data0<-sortdata100[sortdata100$ecoval<100,] 
> data0<-na.omit(data0) 
> data0 
     CV11 CV12 CV13 CV14 CV15 CV21 CV22 CV23 CV24 CV25 CV26 CV31 CV32 CV33 CV41 CV42 CV43 CV44 CV51 CV52 IN11 IN12 IN13 
4728  0 0 0 1 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 
5339  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 
11766 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
796  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
3561  0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 
10581 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 
10618 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 1 0 0 0 0 0 
14376 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 
14389 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 
790  0 0 0 1 0 0 0 0 1 0 0 2 0 0 0 0 0 0 0 0 1 0 0 
3974  0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 
4739  0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 1 0 0 0 0 0 0 
156  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
2740  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
2950  0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 
     IN14 IN21 IN22 IN23 IN31 IN32 IN33 IN34 BA11 BA12 BA21 DE11 DE12 DE13 DE14 DE15 GR11 GR12 GR13 GR21 GR22 GR31 GR32 
4728  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 
5339  1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 
11766 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 
796  1 1 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
3561  0 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
10581 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 
10618 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 
14376 1 0 0 0 0 0 0 0 1 0 0 0 0 2 0 0 0 0 0 0 0 0 0 
14389 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 1 0 0 0 0 0 0 0 
790  0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 
3974  0 0 0 0 0 0 0 0 1 0 0 0 4 0 0 0 1 0 0 0 0 0 0 
4739  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
156  0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 
2740  0 0 0 0 0 0 0 0 0 0 0 0 0 6 2 0 0 0 0 0 0 0 0 
2950  0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
     EP11 EP12 EP13 EP14 EP21 EP31 EP32 EP33 EP34 EP35 NE11 NE12 NE21 OT11 OT12 OT21 OT22 ecoval 
4728  0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0  99 
5339  0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0  99 
11766 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1  99 
796  1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  98 
3561  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  98 
10581 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0  98 
10618 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0  98 
14376 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  98 
14389 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  98 
790  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  97 
3974  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  97 
4739  0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 1 0  97 
156  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  96 
2740  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0  96 
2950  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  96 
[ reached getOption("max.print") -- omitted 14984 rows ] 
+2

Leider nicht klar, mir geben sollte, lesen Sie bitte die Informationen über [wie eine gute Frage] (http: // stackoverflow.com/help/how-to-ask) und wie man ein [reproduzierbares Beispiel] gibt (http://stackoverflow.com/questions/5963269). Dies wird es anderen sehr erleichtern, Ihnen zu helfen. – zx8754

Antwort

0

vielleicht so etwas?

library(dplyr) 
data %>% group_by(ecoval > 100) %>% summarize_all(mean) 

, dass Sie den Durchschnitt jeder Spalte für ecoval > und <=-100

+0

Vielen Dank für Ihre Antwort! Ich weiß nicht genau, wie man das Ergebnis von R interpretiert, wofür sind die Linie FALSE und die Linie TRUE? ist der Mittelwert in der Zeile mit dem Namen TRUE? –

+0

'A Tibble: 2 x 65 ecoval> 100 CV11 CV12 CV13 CV14 CV15 CV21 CV22 CV23 CV24 1 FALSE 0,00299880 0,003398641 0,0003332001 0,,0005331201 0,005997601 0,00206584 0,003531921 0,00146608 2 TRUE 0,03314917 0.154696133 0.0441988950 0.535911602 0.0552486188 0.060773481 0.03867403 0.077348066 0.03867403' –

+0

Ich gruppiere deine Zeilen nach der Bedingung 'ecoval> 100', also ist die Zeile mit' TRUE' die Zeile, die die Daten für 'ec zusammenfasst oval> 100', und die Zeile mit 'FALSE' enthält die Daten für' ecoval <= 100' :) –

Verwandte Themen