2017-06-15 3 views
0

Ich versuche Sieger vorherzusagen Spiel auf der Grundlage der historischen Daten wie unten gezeigt,Wie kann ich die Ausgabe eines Amazon Machine Learning-Modells einschränken? (Vorhersage Kricketmannschaft Ergebnisse)

data set

Der Datensatz besteht aus IPL Jahreszeiten und Team_Name_id vs gegnerische Mannschaft sind die Teamnamen in IPL. Ich habe die Match-ID als Zeilen-ID festgelegt und das Modell erstellt. Wenn Echtzeit-Prüfung ausgeführt wird, ist das Ergebnis nicht wie erwartet (siehe unten)

realtime testing

Ziel als Match_winner_id eingestellt ist. Fehle ich irgendwelche Konfigurationen? Bitte helfen Sie

+0

Ihr Problem ist also, dass "das Ergebnis nicht wie erwartet" ist? Was haben Sie erwartet und warum sind Sie vom Ergebnis enttäuscht? –

+0

@JohnRotenstein: Match_winner_id sollte entweder 4 oder 9 sein. Wenn ich 6 und 10 gebe, bleibt die Vorhersage bei 4. Der Gewinner kann kein Team sein, das nicht in einem Match spielt. Wie modelliere ich die Daten so, dass match_winner_id aus team_name_id und Opponent_team_id ausgewählt werden kann. Ich bin in der Lernphase von ML. Bitte helfen Sie. – Vignesh

Antwort

1

Das Modell funktioniert einwandfrei. Es gibt nur zwei Probleme:

  • Ihre Eingangsdaten sind nicht sehr gut
  • keine Möglichkeit gibt es für das Modell zu wissen, dass nur eine dieser beiden Mannschaften gewinnen sollte

Data Quality

Ein vorausschauendes Modell benötigt gute Qualität Eingabedaten auf dem Reverse-Engineer ein Modell, das erklärt ein gegebenes Ergebnis. Diese Eingabedaten sollten Informationen enthalten, die verwendet werden können, um ein Ergebnis bei einem anderen Satz von Eingabedaten vorherzusagen.

Zum Beispiel, wenn Hauspreise voraussagen, würde es die Vorstadt (Kategorie), Anzahl der Schlafzimmer/Bäder/Parkplätze, Alter des Gebäudes und Verkaufspreis wissen müssen. Es könnte dann den Verkaufspreis für andere Häuser mit einer leicht unterschiedlichen Mischung von Variablen vorhersagen.

jedoch basierend auf den Screenshot, Sie geben die folgenden Informationen (und wahrscheinlich mehr), auf dem Ihre Vorhersage zu machen:

  • Teams: nicht groß, weil Sie Trennung Spalte C und Spalte D. Das Modell geht davon aus, dass es sich nicht um Informationen handelt. Es ist nicht klar, dass diese beiden Werte vertauscht werden könnten.
  • Spiel Datum: nutzlosen Informationen, es sei denn das Ergebnis ändert sich im Verhältnis zu Zeit (zB ein Team ständig besser wird)
  • Jahreszeit: Wie bei Spiel Datum, ist dies wahrscheinlich nutzlos, weil Sie immer die Vorhersage der Zukunft Nur relevant, wenn ein bestimmtes Team gewinnt immer an einem bestimmten Ort
  • Toss Entscheidung: - Sie werden nicht für eine vergangene Saison
  • Veranstaltungsort werden die Vorhersage Wäre dies wirklich das Ergebnis beeinflussen? Außerdem ist es nur bekannt, wenn das Spiel beginnt, also nicht großartig, um ein zukünftiges Spiel vorherzusagen.
  • Win Typ: Sie werden den Typ des Gewinns erst wissen, wenn ein Spiel vorbei ist, also ist es nicht für die Vorhersage eines zukünftigen Spiels geeignet.
  • Punktzahl: Wieder nicht bekannt bis zum eigentlichen Spiel, also nicht gut für zukünftige Vorhersagen.
  • Mann des Spiels: Nicht für zukünftige Spiele bekannt.
  • Schiedsrichter: Wie beeinflusst ein Schiedsrichter das Ergebnis eines Spiels?
  • Stadt: Ja, angesichts der Tatsache, dass Heimteams oft einen Vorteil haben.

Sie haben sehr wenig Informationen zur Verfügung gestellt, die zur Vorhersage eines zukünftigen Spiels verwendet werden könnten. Es gibt wirklich nur die Mannschaften und den Veranstaltungsort. Alles andere ist entweder Teil des Spiels selbst oder irrelevant.

Picking nur eines der beiden Teams

Wenn das ML-Modell auf Ihre Daten sieht und versucht, eine Vorhersage zu machen, wird es bei alle Daten, die Sie zur Verfügung gestellt haben aussehen. Zum Beispiel könnte es bemerken, dass Team 8 für einen bestimmten Ort und eine bestimmte Saison eine höhere Neigung zu gewinnen hat. Daher wird dieser Platz und die Saison einen Gewinn von Team 8 begünstigen. Das Modell hat kein Konzept, dass das einzige mögliche Ergebnis eines der beiden in den Spalten C und D angegebenen Teams ist.

Sie prognostizieren für zwei gegeben Teams und Sie sind die Teams in Spalte C oder Spalte D aufgelistet und das macht keinen Sinn - das Ergebnis ist das gleiche, wenn Sie die Teams zwischen den Spalten ausgetauscht, aber das Modell hat kein Konzept davon. Auch Informationen über Team 1 vs Team 2 sind für Team 3 vs. Team 4 völlig irrelevant.

Was Sie tun sollten, ist erstellen Sie einen Datensatz pro Team, alle ihre Übereinstimmungen aufgelistet, plus eine Spalte, die das Ergebnis zeigt - entweder ein boolescher Wert (Gewinn/Verlust) oder ein Wert, der die Anzahl der Läufe angibt, nach denen sie gewonnen haben (wobei negativ ein Verlust ist). Sie würden dann fragen sie Modell, um das Ergebnis für das Team vorherzusagen, angesichts der Eingabedaten, die gewinnen/verlieren oder eine Punkte über/unter dem anderen Team wäre.

Aber im Kern denke ich, dass Ihre Eingabedaten nicht reichen Inhalt genug, um eine vernünftige Vorhersage machen können. Fragen Sie sich einfach: "Welche Daten würde ich gerne wissen, wenn ich rate, welches Team gewinnen würde?" Es wären wahrscheinlich vergangene Ergebnisse, Wetterbedingungen, welche Spieler in jeder Mannschaft gespielt wurden, wie viele Spiele sie in der letzten Woche gespielt haben usw. Keine dieser Informationen wird als Eingabe für jede Zeile Ihrer Eingabedaten bereitgestellt.

Verwandte Themen