2017-07-25 1 views
-1

Ich versuche, mein eigenes Korpus für bestimmte Kategorien wie Engineering, Business, Mathe, Wissenschaft usw. zu erstellen. Dies wird für die automatische Kategorisierung von Webseiten sein. Nehmen wir an, ich sammle 100 Websites, die sich auf Mathematik beziehen. Können diese 100 Websites als Korpus für Mathematik betrachtet werden?Kann eine Liste von Websites als Korpus für eine bestimmte Kategorie betrachtet werden?

Eine andere verwandte Frage. Wie unterscheidet sich das von einem Lexikon, in dem anstelle einer Liste von Websites eine Liste von Wörtern mit Gewichten wie 0 oder 1 für bestimmte Kategorien angezeigt wird? Beispiel wäre ein Sentimentlexikon mit Wörtern, die positiv und negativ gewichtet sind. Aber statt positiv und negativ werden Kategorien wie Mathematik, Wissenschaft verwendet.

+0

Ein Korpus ist nur ein Ensemble von Daten. Dann könnten Ihre 100 mathematischen Websites als eine Unterprobe Ihres Korpus angesehen werden, entsprechend der Bezeichnung "math" (falls Sie beaufsichtigtes Lernen durchführen). – debzsud

+0

@debzsud Ohh jetzt sehe ich. Was wäre der Unterschied zu einem Lexikon? Ich habe die Frage bearbeitet. – John

+0

Ich hoffe mit collectiong meinen Sie den Inhalt dieser Seiten, nicht nur URLs? Es wird schwierig sein, Websites nur nach URL zu kategorisieren. Wenn es Inhalt ist, unterscheidet sich diese Aufgabe nicht von Dokumenten mit Text. – CrazyElf

Antwort

1

Sie sagen, Sie möchten einige Webseiten Kategorisierung machen, dann ist das Problem, das Sie konfrontiert sind, ein überwachtes Lernen Problem. Die Daten, die du erhältst, sind Webseiten, also schätze ich, dass du ihre Inhalte tatsächlich als Text extrahierst. Sie arbeiten mit Texteingabedaten. Da Sie sie kategorisieren möchten, hat jedes Ihrer Eingabedaten einen oder mehrere entsprechende Etiketten, die die Ausgaben sind, die Sie vorhersagen möchten. Sie haben mehrere Label, so dass Sie Multi-Label-Klassifizierung

Um dieses Problem zu bewältigen tun wollen, da die meisten Algorithmen für maschinelles Lernen mit numerischem Vektor arbeiten, müssen Sie Ihre corpus von Texten in Vektoren (oder in eine verwandeln Matrix). Um dies zu tun, können Sie die bag of word Technik verwenden, die zuerst ein Wörterbuch oder Lexikon aufbauen und dann das Auftreten jedes Wortes des Wörterbuchs in jedem Text zählen. Tatsächlich können Sie Ihr Ausgabe-Label auf die gleiche Weise transformieren, indem Sie für jede Kategorie einen Index Ihres Ausgabevektors zuweisen. > [Input_vector] --prediction - -> [output_vector] --label_matchnig -> [Etiketten]

[input_text] --bag_of_word:

Die endgültige Pipeline wäre so etwas wie dieses

+0

Vielen Dank für die ausführliche Antwort. Kann ich TF-IDF beim Erstellen des Wörterbuchs oder Lexikons verwenden, anstatt nur die Vorkommnisse zu zählen? – John

+0

Sie können TF-IDF ausprobieren, manchmal ist es nützlich, manchmal nicht. – CrazyElf

+0

Ja, tf-idf ist ein möglicher nächster Schritt, um Ihre Texte als Vektoren darzustellen. Sie haben auch LSA, LDA, Worteinbettung und komplexere Deep Learning-Modelle. – debzsud

Verwandte Themen