2010-06-22 11 views
5

Ich bin auf der Suche nach einem Korpus von Text, um einige Probe Fulltextstil Daten quer durch zu führen. Entweder etwas, das ich herunterladen kann, oder ein System, das es erzeugt. Etwas etwas zufälliger wäre besser, z.B. 1.000.000 Wikipedia-Artikel in einem Format, das einfach in eine 2-Spalten-Datenbank (ID, Text) eingefügt werden kann.Suche nach Dataset zum Testen FULLTEXT Stil sucht auf

Irgendwelche Ideen oder Vorschläge?

+0

Versuchen Sie http://pizzachili.dcc.uchile.cl/texts.html –

Antwort

0

Ich werde dies dort werfen, da ich mit ihm vertraut bin - Prosper.com macht ihr Mitglied Darlehen Inserate für die Analyse through an XML export. Der Export hätte etwa 50.000 Darlehensanträge mit Beschreibungen und über 1.000.000 Mitgliederprofilen (obwohl viele davon leer sind).

+0

Danke, das könnte nützlich sein. Noch ein bisschen Verarbeitung, um es zur Arbeit zu bringen - aber es wird es versuchen. –

2

Warum nicht eine Wikipedia dump verwenden?

+1

Hauptsächlich weil unkomprimiert ist es viele viele GB und ist in Auszeichnungssprache - nur nach Text suchen. –

3

Projekt Gutenberg hat 32000 Bücher zur Verfügung.

Edit: Ab sofort (17.06.16) gibt es 52.284 eBooks kostenlos als reine Textdatei in UTF-8 in einer Vielzahl von Themen (Von der Wissenschaft zur Religion) zum Download bereit. Auch in den Formaten EPUB, Kindle oder HTML-Format. Prüfen here Project Gutenberg