2017-01-02 4 views
1

Es tut mir sehr leid, wenn diese Frage die Frage-Richtlinien von SO verletzt, aber ich stecke fest und ich kann nirgendwo anders diese Art von Fragen stellen. Angenommen, ich habe einen Datensatz, der drei experimentelle Daten enthält, die unter drei verschiedenen Bedingungen (heiß, kalt, angenehm) gewonnen wurden. Die Daten sind in drei Spalten in einer pandas dataframe bestehend aus 4 Spalten (time, cold, comfortable and hot) angeordnet. Wenn ich die Daten plotte, kann ich visuell die Trennung der drei Experimente sehen, aber ich würde es gerne automatisch mit maschinellem Lernen machen. Die X-Achse repräsentiert die time und die Y-Achse repräsentiert die magnitude der Daten. Ich habe über verschiedene Maschinen lernen classification techniques gelesen, aber ich verstehe nicht, wie ich meine Daten einrichten, so dass ich es in den classification Algorithmus "einspeisen" kann. Nämlich, meine Fragen sind:Maschinelles Lernen Klassifikationsdatensatz einrichten

  1. Ist das programmatisch machbar?
  2. Wie kann ich meine Daten so einrichten, dass sie leicht in den Klassifizierungsalgorithmus eingegeben werden können? From what I read so far, es scheint, für den Algorithmus zu arbeiten, müssen die Daten in einer bestimmten Reihenfolge sein (siehe zum Beispiel die iris dataset, wo die Daten gut beschriftet ist. Wie kann ich die Algorithmen an meine Bedürfnisse anpassen? HINWEIS: Ideal , würde ich das Programm gefällt, dass ein Größenwert gegeben, wäre es den Wert als hot, comfortable or cold klassifizieren. die Serie es ist nicht viel von Bedeutung in meinem Fall
+1

Was versuchen Sie mit der Klassifizierung zu erreichen? Wenn es sich um Ihre Daten handelt, haben Sie noch weitere Daten, die als Testgruppe klassifiziert werden sollen? – Arman

+1

Warum sortieren die Daten nicht genug? Scheint, als ob du ein XY-Problem hast http://meta.stackexchange.com/questions/66377/what-is-the-xy-problem – alex314159

+0

@Arman, es sind meine Daten, aber ich würde gerne die Daten dazu verwenden andere Experiment Ergebnisse voraussagen –

Antwort

1

natürlich ist dies machbar ist.

Aus dem Originalbeitrag ist nicht ganz klar, welche Variablen/Features Sie für Ihr Modell zur Verfügung haben, aber hier ist ein bisschen allgemeine Anleitung. Alle diese maschinellen Lernprobleme, von der Klassifizierung bis zur Regression, beruhen auf der gleichen Kernannahme, dass Sie versuchen, ein Ergebnis basierend auf einer Reihe von Eingaben vorherzusagen. Normalerweise wird diese Beziehung wie folgt modelliert: y ~ X1 + X2 + X3 ..., wobei y Ihr Ergebnis ("abhängige" Variable) ist, und X1, X2 usw. sind Merkmale ("erklärende" Variablen). Einfacher können wir sagen, dass unter Verwendung unserer gesamten Merkmalssatzmatrix X (d. H. Der Matrix, die alle unsere x-Variablen enthält) eine bestimmte Ergebnisvariable y unter Verwendung einer Vielzahl von ML-Techniken vorhergesagt werden kann.

Also in Ihrem Fall würden Sie versuchen, vorherzusagen, ob es , Comfortable oder Hot basierend auf time ist. Dies ist eher ein Prognose- als ein ML-Problem, da Sie eine Zeitkomponente haben, die eine der wichtigsten (wenn nicht die einzige) Funktion in Ihrem Dataset zu sein scheint. Vielleicht möchten Sie sich einige einfachere Zeitreihenprognosemethoden (z. B. ARIMA) anstelle von ML-Algorithmen ansehen, da einige Zeitreihen-ML-Ansätze für einen Anfänger möglicherweise nicht gut geeignet sind.

In jedem Fall sollten Sie damit beginnen, denke ich.

+0

Vielen Dank für Ihre schnelle Antwort. Wird ARIMA nicht zur Vorhersage zukünftiger Werte im Gegensatz zur Klassifizierung verwendet? In meinem Fall ist die Zeit nicht viel relevant. Es ist mir nur wichtig zu wissen, ob eine bestimmte Größe zu einem heißen, kalten oder angenehmen Experiment gehört. –

+1

Sie könnten also a) ARIMA verwenden, um den Wert zu einer gegebenen Zeit "t" vorherzusagen, und dann die Regeln anwenden, die etwas "heiß", "kalt" oder "komfortabel" sind (zB größer als 80 ist "heiß") zu diesem prognostizierten Wert, oder b) behandeln Sie es als ein Klassifikationsproblem und verwenden Sie einfach "Zeit" als Ihr Merkmal. Es kann bestimmte Zeitreihenkomponenten in Ihren Daten geben (zB Saisonalität), die ein wenig mehr Untersuchung erfordern, wenn Sie die ML-Route gehen ... – blacksite

+0

Das würde leider nicht funktionieren, da ich das Klassifikationsmodell zur Vorhersage verwenden muss andere Experimente, deren Ausgabewert von den verwendeten Subjekten (Mäusen in meinem Fall) abhängt. –

Verwandte Themen