2017-06-30 3 views
-2

Ich bin sehr neu Python und maschinelles Lernen, habe ich einige vordefinierte Kategorien oder Tag-Set wie diese [cricket, football, politics, education, movie] usw. Jetzt möchte ich angegebenen Artikel ist, welche Kategorien ich versucht Wörter eines gegebenen Artikels zu zählen und mit dem meisten Vorkommen von Wörtern übereinstimmen zählen in bestimmten Kategorien wie Taschen von Wörtern.Artikel Klassifizierung in bestimmten Kategorien mit Python

Aber BOW (Taschen Of Word) nicht mein Problem lösen zum Beispiel dieses folgende Beispiel Artikel betrachten:

article 1: " BCCI nominate Ravi Shatri name as Indian coach " article 2: " Sachin Tendulakar is a member of Rajya Sabha "

In oberhalb dieser beiden Artikel erster Artikel eingebaut Cricket Kategorien und zweiten Artikel eingebaut Politics Kategorien, aber mit dem BOW passt dieser Artikel in keine der angegebenen Kategorien.

Meine Frage ist, wie man dieses Artikelklassifikationsproblem lösen kann, welcher Algorithmus dafür am besten geeignet ist. Jede Hilfe wird sehr geschätzt.

+0

Einige Methoden, die für Sie nützlich sein könnten, wären Nearest Neighbour, SVM oder neuronale Netzwerke. Aber es hängt von der Komplexität des Problems und der Menge der Trainingsdaten ab, welche Methode Sie wählen sollten – Mathias

Antwort

1

Sammeln Sie Daten für Cricket, Fußball, Politik, Bildung, Film verwandte Artikel. Dann wird der Datensatz Absätze sein, und sie gehören zu einer der oben genannten Kategorien.

Trainieren Sie jetzt einen Klassifikator, mit dem ein Artikel vorhersagen kann, welcher Kategorie dieser Artikel angehört. Sie können mit der einfachsten Tasche der Wortdarstellung von Artikeln zur Klassifizierung beginnen und dann die Ergebnisse und die Genauigkeit analysieren. Danach kann man zu einem anspruchsvolleren Ansatz wie einem Wort zu einem Vektor oder einem Dokument zu einem Vektor für eine Wortrepräsentation übergehen und dann einen Klassifizierer trainieren.

Nachdem Sie das Klassifizierungsmodell erstellt haben, müssen Sie es zur Klassifizierung Ihres Testdokuments klassifizieren.

Verwandte Themen