0

Ich bin ein maschinelles Lernen Text Klassifikationsmodell in R erstellen. Ich möchte den Satz in mehr als ein Label zu klassifizieren, wenn es in mehrere Kategorien fällt.Machine Learning Multi-Label-Text-Klassifizierung mit R

z. B .: "Die Bildschirmauflösung des Smartphones ist großartig und die Akkulaufzeit auch" - zur Zeit kann ich den Satz entweder in Batterie- oder Telefonfunktionskategorie klassifizieren, aber ich möchte, dass er in beide klassifiziert wird.

Der Ausgang kann wie: enter image description here

Es wird groß sein, wenn jemand mir mit Ideen oder Methoden helfen kann, das obige Ergebnis zu erhalten.

+0

Wie sind Ihre Kategorien definiert? Verwenden Sie ein Wörterbuch? Oder möchten Sie eine probabilistische (unbeaufsichtigte) Klassifizierung verwenden? Letzteres wird jedoch nicht unbedingt Kategorien in der von Ihnen gewünschten Weise erzeugen. Es gibt viele Pakete für das Text Mining, die für [CRAN Task View: Natural Language Processing] relevant sein könnten (https://cran.r-project.org/web/views/NaturalLanguageProcessing.html). –

+0

Danke für die Antwort, ich habe historisch Daten für Gebäude überwacht Modell klassifiziert. Zur Zeit verwende ich das RTexttool-Paket, indem ich einen Container erzeuge und die Methoden train_models und classify_models verwende. Bitte helfen Sie mir bei den Methoden oder Beispiel-Links für die Multi-Label-Klassifizierung – user1682140

+0

Wenn Sie bereits etwas ausprobiert haben, wäre es hilfreich, den Code mit einigen Daten zu versehen ein reproduzierbares Beispiel haben. –

Antwort

0

Ich würde vorschlagen, einen binären Klassifikator für jedes Etikett zu trainieren.

Mit einigen Algorithmen - wie der logistischen Regression - können Sie jeden binären Klassifikator unabhängig trainieren.

Es gibt auch sogenannte Multilabel-Algorithmen - sie trainieren alle binären Klassifikatoren gleichzeitig und extrahieren die gleichen Merkmale aus den Daten für jeden Klassifikator. Ein Beispiel ist ein neuronales Netzwerk mit einer sigmoiden letzten Schicht. Eine Liste der Multilabel-Algorithmen finden Sie im Abschnitt "support multilabel" unter http://scikit-learn.org/stable/modules/multiclass.html.

Natürlich wird ein Multilabel-Algorithmus logistische Regression nicht unbedingt übertreffen, Sie müssen versuchen zu sehen, was am besten für Ihr Problem funktioniert.

+0

Dank Samen, derzeit verwende ich SVM-Algorithmus für das Training des Modells. Ich werde binäre Klassifizierer versuchen und Sie aktualisieren. Vielen Dank :) – user1682140