Ich muss eine Menge von CSV-Dateien verarbeiten, die 3 Spalten enthält: Datum, TV-Kanal-ID, Film-ID.Analysiere abstrakte Daten
Basierend auf diesen Spalten, muss ich klassifizieren, was das Genre jedes Films und das Genre der TV-Kanal-ID ist.
Ich bin neu im Big Data Prozess und ich frage mich, wie kann ich diese Daten klassifizieren, wenn ich nur eine ID habe (ich kann nicht eine andere Quelle verwenden, um die ID zu suchen oder Zufallsdaten zu generieren, um meinen Algorithmus zu trainieren).
Die Lösung, die ich gefunden habe, ist eine Reihe von Stunden definieren und legen Sie die Filme, die innerhalb eines Genres in Reichweite sind. Beispiel:
- Filme, die zwischen 01: 00-04: 00, Genre 1;
- Filme, die zwischen 04: 01-06: 00, Genre 2;
- usw.
Nach Klassifizieren Filme, kann ich die TV-Kanäle klassifizieren basierend auf Filme, die sie gespielt haben.
Und ich habe vor, es zu tun Funken mit :)
jemand eine andere Lösung oder einen Rat? Es ist ein bisschen schwer, weil diese Daten wie abstrakt aussehen.
Danke
Können Sie einen Code bereitstellen, den Sie ausprobiert haben? So wie es aussieht, gibt es so viele Ansätze, dass die Frage zu weit gefasst ist, um sie zu beantworten. – wheaties
Aus Ihrer Erklärung geht hervor, dass Sie immer noch die Geschäftslogik herausfinden !!! Sobald Sie die Geschäftslogik herausgefunden haben, wie Funken verwendet werden können, kann durchdacht werden. – rakesh