2016-08-23 3 views
-3

Ich bin neu zu R, sondern versuchen, Daten-Set hier zu analysieren ist die Original-Link https://cache-default03g.cdn.yandex.net/download.yandex.ru/company/jobs/test_data_dreams.txtarbeiten an Suchanfragen in R

Mein Code ist (ich benutze R Studio 0.99.903 & R 3.3.1)

# get the data from url url <- "https://cache- default03g.cdn.yandex.net/download.yandex.ru/company/jobs/test_data_dreams.txt" testdata <-read.table(url, header = T, sep="\t") #install packages for text mining to analyze the queries install.packages("slam") install.packages("tm") library(tm) #convert unix to GMT testdata$timestamp..unix. <- as.POSIXct(as.numeric(as.character(testdata$timestamp..unix.)),origin="1970-01-01",tz="GMT") #delete some words testdata$query <- gsub("к чему снится ", "\\1", testdata$query) testdata$query <- gsub("к чему сниться ", "\\1", testdata$query) testdata$query <- gsub(" к чему снится", "\\1", testdata$query) testdata$query <- gsub(" к чему сниться", "\\1", testdata$query) testdata$query <- gsub("снится ", "\\1", testdata$query) testdata$query <- gsub(" к чему", "\\1", testdata$query)'

Jetzt sieht mein Datenrahmen auf diese Weise.

> head(testdata) timestamp..unix. query city 1 2016-02-04 10:15:13 волна вынесла на берег Москва 2 2016-02-24 10:28:53 бегать наперегонки Екатеринбург 3 2016-02-07 15:31:51 свадьба мужчине со своей женой Владикавказ 4 2016-02-05 08:06:24 иголка медицинская Тамбов 5 2016-02-16 15:21:16 давняя знакомая Калининград 6 2016-02-27 03:38:46 белый маленький котенок Новосибирск

Jetzt versuche ich Anfragen zu plotten ihre Verteilung während des Tages zu sehen (auch im Laufe des Monats) im Allgemeinen und für jede Stadt, die ich habe.

Könnten Sie mir bitte mit dem Tool helfen, ich sollte wählen, Tage und Stunden getrennt zu lesen und nicht die Abfrage selbst, sondern nur die Verteilung von Abfragen plotten.

Danke!

+0

Hallo @Yevgenyia, willkommen zu stapeln Überlauf. Um die benötigte Hilfe zu erhalten, sollte die von Ihnen gepostete Frage ein Beispiel für den von Ihnen verwendeten Datensatz enthalten (oder einfach nur einen Teil davon, wenn dieser zu groß ist), den Versuch, das Problem und den Code zu lösen Sie verwendeten. Werfen Sie einen Blick auf den folgenden Link auf [wie man ein großartiges reproduzierbares Beispiel macht] (http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example). Wenn Sie Ihre Frage bearbeiten, bin ich sicher, dass wir Ihnen helfen können :) – thepule

+0

@thepule Danke für den Link! Es machte alles verständlicher) –

Antwort

0

Sie können lubridate Paket verwenden, es ist ziemlich einfach, Tage und Stunden von Ihren Daten zu extrahieren und dann einen Test auf sie zu machen. Zum Beispiel:

# Add a column for day 
df$day <- day(df$timestampcol) 

# Add a column for the hour 
df$hour <- hour(df$timestampcol) 

Für das Grundstück empfehle ich Ihnen ggplot2 Paket und here Sie ein Beispiel Plotten Zeitreihe zu finden.