ich diese Datenin R Verwendung dplyr: Wie werden Daten auf derselben Spalte mit unterschiedlichen Kriterien zusammenfassen
user_id business_id date stars review_length pos_words neg_words net_sentiment
Xqd0DzHaiyRqVH3WRG7hzg vcNAWiLM4dR7D2nwwJ7nCA 17/05/07 5 94 4 1 3
H1kH6QZV7Le4zqTRNxoZow vcNAWiLM4dR7D2nwwJ7nCA 22/03/10 2 114 3 7 -4
zvJCcrpm2yOZrxKffwGQLA vcNAWiLM4dR7D2nwwJ7nCA 14/02/12 4 55 6 0 6
KBLW4wJA_fwoWmMhiHRVOA vcNAWiLM4dR7D2nwwJ7nCA 2/03/12 4 97 0 3 -3
zvJCcrpm2yOZrxKffwGQLA vcNAWiLM4dR7D2nwwJ7nCA 15/05/12 4 53 1 2 -1
yelp<- read.csv("yelp_ratings.csv")
colnames(yelp)
[1] "user_id" "business_id" "date" "stars" "review_length"
[6] "pos_words" "neg_words" "net_sentiment"
Ich brauche dplyr zu verwenden gesetzt haben, die Unternehmen zu bestimmen, die die besten und schlechtesten Rating bewertet --- bestimmen durch den Wert in net_sentiment --- und bestimmen Sie auch die Benutzer, die die beste und schlechteste Bewertungen (mit dem Wert in net_sentiment als auch) für diese bestimmte Business-ID angegeben.
Heres, was ich jetzt habe,
yelp %>%
group_by(business_id,user_id) %>%
summarise(net_sentiment = max(net_sentiment)) %>%
arrange(desc(net_sentiment)) %>%
head(n=20)
Diese aus einem Druck gibt, aus meiner Datensatz
business_id user_id net_sentiment
1 -5RN56jH78MV2oquLV_G8g xNb8pFe99ENj8BeMsCBPcQ 80
2 gVYju3XRcO1R4aNk7SZJcA xNb8pFe99ENj8BeMsCBPcQ 78
3 ORiLSAAV4srZ_twFy1tWpw xNb8pFe99ENj8BeMsCBPcQ 77
4 gVYju3XRcO1R4aNk7SZJcA ULOPLvLghKZrfo3PhwbPAQ 74
5 4uGHPY-OpJN08CabtTAvNg xNb8pFe99ENj8BeMsCBPcQ 72
die das Geschäft mit dem höchsten net_sentiment Punktzahl zeigt und auch den Benutzer, gab diesen Net_sentiment-Score.
Was ich erreichen wollen ist so etwas wie
Für das Geschäft mit Bestnote:
business_id user_id_best_rating pos_net_sentiment user_id_worst_rating neg_net_sentiment
-5RN56jH78MV2oquLV_G8g xNb8pFe99ENj8BeMsCBPcQ 80 user123 -50
Für das Geschäft mit schlechteste Bewertung:
business_id user_id_best_rating pos_net_sentiment user_id_worst_rating neg_net_sentiment
business123 user345 10 user789 -150
Wieder zu klären, dplyr mit Es sollte eine Auflistung der besten Unternehmen zuerst durch die Net_sentiment Punktzahl und die Benutzer, die die beste und schlechteste Bewertung für dieses Geschäft und das gleiche sollte App sein bestimmt werden belogen zu den schlimmsten Geschäften.
Einige Beispieldaten machen würde es wesentlich einfacher Gedanken und/oder Antworten. Ein Gedanke ist jedoch, dass es einfacher ist, zu erwarten, dass Ihre Ergebnisse im "großen" Format bleiben, indem Sie auf das von Ihnen vorgeschlagene "breite" Format umschalten. Obwohl es nicht schwer zu konvertieren ist, ist es viel einfacher, das große Format zu visualisieren und zu produzieren. – r2evans
@ r2evans fügte einige Beispieldaten hinzu. –
Möchten Sie Ihre Beziehungen unterbrechen oder möchten Sie alle Ergebnisse für die höchste und niedrigste Punktzahl zurückbekommen? –