Ich versuche, mein eigenes Korpus für bestimmte Kategorien wie Engineering, Business, Mathe, Wissenschaft usw. zu erstellen. Dies wird für die automatische Kategorisierung von Webseiten sein. Nehmen wir an, ich sammle 100 Websites, die sich auf Mathematik beziehen. Können diese 100 Websites als Korpus für Mathematik betrachtet werden?Kann eine Liste von Websites als Korpus für eine bestimmte Kategorie betrachtet werden?
Eine andere verwandte Frage. Wie unterscheidet sich das von einem Lexikon, in dem anstelle einer Liste von Websites eine Liste von Wörtern mit Gewichten wie 0 oder 1 für bestimmte Kategorien angezeigt wird? Beispiel wäre ein Sentimentlexikon mit Wörtern, die positiv und negativ gewichtet sind. Aber statt positiv und negativ werden Kategorien wie Mathematik, Wissenschaft verwendet.
Ein Korpus ist nur ein Ensemble von Daten. Dann könnten Ihre 100 mathematischen Websites als eine Unterprobe Ihres Korpus angesehen werden, entsprechend der Bezeichnung "math" (falls Sie beaufsichtigtes Lernen durchführen). – debzsud
@debzsud Ohh jetzt sehe ich. Was wäre der Unterschied zu einem Lexikon? Ich habe die Frage bearbeitet. – John
Ich hoffe mit collectiong meinen Sie den Inhalt dieser Seiten, nicht nur URLs? Es wird schwierig sein, Websites nur nach URL zu kategorisieren. Wenn es Inhalt ist, unterscheidet sich diese Aufgabe nicht von Dokumenten mit Text. – CrazyElf