2009-05-03 13 views
1

Ich arbeite an einem übergreifenden Informationsabruf, der Anfragen in Englisch entgegennimmt und Dokumente in Russisch durchsucht. Um dieses System zu bewerten, wäre es schön, eine Sammlung von russischen Dokumenten zu durchsuchen. Kennt jemand da draußen eine Sammlung von Dokumenten, die ich durchsuchen kann, oder Websites, von denen ich einfach eine Menge russischer Dokumente (abgesehen von wikipedia) zusammenkratzen kann?Russian Document Corpus für die Suchmaschine

Dokumente können alles Mögliche sein, obwohl es schön wäre, wenn sie in einem spezifischen Bereich der menschlichen Wissens sind (CS, Architektur, Technik, Kunst, Literatur-Analyse, was auch immer ...)

+0

Was ist los mit Wikipedia? – Zifre

Antwort

1

Sie wissen nicht, wenn das ist, was Sie suchen, aber here's a torrent of Russian national standards and laws. Sie sind im dBase4-Format und es gibt ungefähr 57,3 GB Daten.

+0

Ich hätte lieber etwas im Unicode-Klartext und ich brauche 200-10000 Dokumente. –

+0

Wenn Sie ein * nix-System verwenden, können Sie diese verwenden: http://linux.maruhn.com/sec/dbview.html, um die dBase-Dateien in ein anderes Format zu konvertieren. In Windows können Sie ADODB verwenden: http://www.freevbcode.com/ShowCode.asp?ID=9055 http://www.vbcode.com/Asp/showsn.asp?theID=12507. Außerdem glaube ich, dass Excel dBase-Dateien lesen kann, obwohl die Erweiterung .db4 standardmäßig nicht erkannt wird. – Calvin