2016-11-06 3 views
0

Ich habe eine Aufgabe, eine ungesehene Filmkritik in eine positive oder eine negative Bewertung einzuordnen. Ich habe zwei Ordner, Neg und Pos, die jeweils 1.000 Dateien enthalten, die bereits klassifizierte Filmkritiken sind.Python: Naive Bayes Filmkritik

Bis jetzt, was ich getan habe, ist die positiven Bewertungen geladen, und ich habe jedes Wort in einem Wörterbuch zusammen mit der Häufigkeit jedes Wort gespeichert. Ich habe dann jede Worthäufigkeit durch die Gesamtzahl der Wörter in den Dateien der positiven Ordner geteilt. Ich habe das gleiche mit dem negativen Ordner gemacht.

Ich bin derzeit fest, wohin ich als nächstes gehen soll. Am Ende muss ich eine ungesehene Überprüfung laden und feststellen, ob die Überprüfung positiv oder negativ ist. Ich suche keinen Code, nur eine Anleitung, was ich als nächstes tun muss, um dies zu erreichen. Jede Hilfe ist sehr geschätzt, danke!

+0

Sie sagen "Ich suche keinen Code, nur Anleitung": also posten Sie Ihre Frage auf [Code Review] (http://codereview.stackexchange.com/) –

+3

@LaurentLAPORTE das scheint nicht wie es ist überall nahe am Thema für Code-Review sein. Wir sollten uns daran gewöhnen, Fragesteller zu [Code Review] (http://codereview.stackexchange.com/tour) zu schicken. Bitte lesen Sie den Meta-Beitrag [this] (http://meta.codereview.stackexchange.com/questions/5777/a-guide-to-code-review-for-stack-overflow-users) zur Klärung. – idjaw

+3

Diese Frage ist ein wenig breit für StackOverflow. Da Sie derzeit einige Ihrer Anforderungen bereits herausgefunden haben, haben Sie jetzt eine verbleibende Aufgabe, mit der Sie Schwierigkeiten haben. Ein Rat, den ich Ihnen geben kann, ist zu versuchen, die verbleibende Funktionalität, die Sie hinzufügen möchten, zu strukturieren und zu versuchen. Dann sammle deine Schwierigkeiten als [mcve] und poste es als Frage hier. Das würde es zum Thema machen und eher für * gute * hilfreiche Antworten. Hoffe das hilft. Viel Glück. – idjaw

Antwort

2

Das Problem, das Sie beschreiben, ist ein typisches Sentiment-Analyse-Problem, und was Sie mit den Bewertungen getan haben, heißt Sprachmodell im (Wort, Wahrscheinlichkeit) -Format. Ich schlage vor, dass Sie Professor Dan Jurafskys Videoserie zu Sentiment Analysis im Rahmen eines Stanford-Kurses über NLP here ansehen. Ein weiteres großes praktisches tutorial von Harrison Kinsley auf NLTK [ein Python-Modul für NLP verwandte Aufgaben] zeigt Ihnen, wie Sie NLTK zusammen mit Scikit-lernen [ein beliebtes Python-Modul für ML-Aufgaben] verwenden, um die Klassifizierung mit NB Classifier und viele andere zu tun.

+0

Hallo [: Die Ressource, mit der Sie verbunden sind, ist sehr interessant und hilfreich. Ich denke jedoch, dass diese Antwort besser für einen Kommentar geeignet ist. Nur ein Kopf hoch, um nicht downvoted zu werden, während Sie aufrichtig hilfreich sind, besonders wenn die Frage als opnion-based markiert werden kann. – randomhopeful

+0

OP sucht nach "guidance" und nicht nach Code, wie er/sie beschrieben hat, also habe ich ihn/sie und alle anderen, die genauso gut ihr/ihr Problem in der Durchführung einer einfachen Sentiment Analyse-Aufgabe haben könnten, auf ein grundlegendes, prägnantes und doch informatives Set gesetzt von Vorträgen zu diesem Thema. – 7kemZmani

+0

Absolut [: Ich sagte OP war auf der Suche nach einer Meinung, nicht Code, und das ist nicht erlaubt auf SO. Auf SO müssen Sie Code im MCVE-Format mit dem gewünschten Ausgang und dem aktuellen unerwünschten Code schreiben.Ich habe auch betont, dass Ihr Beitrag sehr hilfreich ist. Ich beobachte den Vortrag selbst. Es ist nur ein Kopf, Kumpel [: Fühlen Sie sich frei, es zu ignorieren. – randomhopeful

0

Die beste Anleitung hier könnte der Udacity ML-Kurs sein ... Sie verwenden die ausgezeichnete scikit-learn-Bibliothek, um E-Mails mit Naive Bayes zu klassifizieren, speziell den Gaußschen Geschmack von NB; Das klingt genau wie das Problem, das Sie haben:

https://www.udacity.com/course/intro-to-machine-learning--ud120

Wenn Sie bereits komfortabel mit den Konzepten sind und Sie sind glücklich zu verwenden SK erlern dann auf die docs gerade springen hier:

http://scikit-learn.org/stable/modules/naive_bayes.html#multinomial-naive-bayes

Das Anpassen des Modells und dann Vorhersagen ist mit SK-lernen, wenn Sie die Daten in der richtigen Form haben, eigentlich trivial.

Verwandte Themen