2009-05-19 10 views
1

Ich habe 100 GB Dokumente. Ich möchte es charakterisieren und einen Überblick darüber bekommen, welche Themen vorherrschen.Wie visualisiere ich einen großen Dokumentensatz?

Die Dokumente sind Klartext.

Ich habe überlegt, ein Tool wie Google Desktop zu verwenden, aber es ist zu groß, um wirklich zu erraten, wonach gesucht werden soll und zu zeitaufwendig, um genügend Suchen durchzuführen, um den gesamten Satz abzudecken.

Gibt es frei verfügbare Werkzeuge, die einen großen Datensatz von Dokumenten zusammenfassen?

Gibt es solche Tools, die solche Cluster visualisieren können?

+0

welche Art von Dokument? ein strukturiertes Dokument? einfacher Text? – Pierre

+0

Eigentlich, sollte es wirklich welche Art von Bedeutung? Jeder Dokumententyp kann mit einem geeigneten Filter in Text konvertiert werden, basierend auf einer einfachen Dateitypüberprüfung. – viksit

Antwort

0

Für einen grundlegenden NLP-Ansatz könnten Sie jedes Dokument als einen Vektor basierend auf Worthäufigkeiten darstellen und dann die Dokumentvektoren mit Bayes'schen oder anderen Methoden (SVM, k-means usw.) clustern.

Ähnliche Antworten finden Sie unter somewhat similar SO question.

Verwandte Themen