-1

Ich habe großes Datum gesetzt, in dem einige der Spalten Date sind und andere sind categorical Data wie Status, Abteilungsname, Ländername.Wie Daten und String in graphlab behandelt werden

So wie diese Daten in Graphlab behandelt werden, wenn ich die graphlab.linear_regression.create Methode aufrufen, muss ich diese Daten vorverarbeiten und in Zahlen umwandeln oder direkt an graphlab bereitstellen.

+0

Jeder Fehler, mit dem Sie dabei konfrontiert wurden? – Dark

+0

@Dark Ich versuche zu verstehen, wie Graphlab die Daten verarbeitet? Konvertiert es String- und Datumsdaten in kategorische Werte? –

Antwort

1

wird hauptsächlich für die Berechnung von Tabellen- und Diagrammdatensätzen verwendet und hat hohe Werte von scalability und performance. In graphlab.linear_regression.create, graphlab haben eingebautes Merkmal, die Art der Daten zu verstehen und die am besten geeignete Methode von linear regression zur Optimierung der Ergebnisse zu geben. Zum Beispiel, für numerische Daten von Ziel und Merkmal beide, die meiste Zeit, graphlab nimmt Newtons Method der linearen Regression. Ähnlich, je nach Datensatz, versteht die Notwendigkeit und gibt Methode entsprechend.

Nun, über die Vorverarbeitung, graphlab dauert nur SFrame für das Lernen, die vor jedem Lernen korrekt analysiert werden müssen. Beim Erstellen eines SFrame werden unverarbeitete und fehlererschaffende Daten immer reflektiert und es wird ein Fehler ausgegeben. Um also durch Lernen zu gehen, müssen Sie saubere Daten haben. Wenn SFrame die Daten annimmt, und auch Ihr gewähltes Ziel und Feature zum Lernen, das Sie wollen, sind Sie gut zu gehen, aber pre-processing und cleaning data wird immer empfohlen. Es ist auch immer eine gute Übung, vor jedem Lernalgorithmus feature engineering zu tun und Datentypen vor dem Lernen immer wieder neu zu definieren.

Über Ihren Punkt auf, wie Daten in behandelt werden, würde ich sagen, es kommt darauf an !. Einige Datensätze sind tabellarisch und werden entsprechend und einige in Diagrammstruktur behandelt. Graphlab funktioniert sehr gut, wenn es zu regression tree und boosted classifiers kommt, das decision tree Konzept folgt und ziemlich Zeit und Ressourcen in anderen Bibliotheken als graphlab verbrauchen.

Für mich graphlab sehr gut entwickelt, während Recommendation Engine zu schaffen, wo ich Datensatz von Knoten und Kanten hatte und boosted tree classifier mit 18 Wiederholungen gearbeitet zu fehlerlos in ganz skalierbare Zeit und ich muß sagen, auch für die Datenbaumstruktur, graphlab führt sehr gut . Ich hoffe, diese Antwort hilft.

Verwandte Themen