2009-07-14 7 views
1

Weiß jemand, wo ich eine riesige Sammlung von Beispieldokumenten finden kann, in einer Vielzahl von Themen? Ich suche mindestens ein paar tausend Dokumente (Office oder PDF sollte in Ordnung sein), um einige Algorithmen zu testen ... Die Dokumente sollten einige Gemeinsamkeiten haben - zum Beispiel tausend Dokumente im Zusammenhang mit der Programmierung, ein anderes Tausend verwandt zu Ökologie, usw. ...Große Anzahl von Beispieldokumenten

Wer weiß, wo ich es bekommen kann?

+0

Was Sie während der letzten 7 Tage versucht haben? Ist eine der Antworten hilfreich? Oder sollte ich diese Frage erneut an plz-send-the-samplez senden? :) –

+0

Ich habe noch nichts probiert. Obwohl die vorgeschlagenen Lösungen interessant sind, entsprechen sie nicht genau meinen Anforderungen ... – SaguiItay

+0

Diese Frage wäre zum Thema bei http://opendata.stackexchange.com/ –

Antwort

0

Ontheinternetzzz?

Edit: Me? Nicht hilfreich sein? :)

import mechanize, urllib, os 

template = r"http://www.google.com/search?q=filetype:pdf&hl=en&start=%s&sa=N" 
links = [] 

br = mechanize.Browser() 
br.set_handle_robots(False) 
br.addheaders = [('User-agent', 'Firefox')] 
for i in xrange(0, 30, 10): 
    br.open(template % i) 
    links.extend((link.url for link in br.links(url_regex="^http.+pdf$")) 
for url in links: 
    urllib.urlretrieve(url, os.path.basename(url)) 
+0

Sie erwarten, dass er tausend von denen manuell herunterladen? -1 –

+0

Ja, oder schreiben Sie ein einfaches Skript tun Sie es für ihn. –

6

Haben Sie versucht, mit Wikipedia? Erstellen Sie ein Skript, dass:

  1. fordert http://en.wikipedia.org/wiki/Special:Random eine zufällige Seite

  2. Folgt die resultierende Umleitung zu erhalten, Anfügen printable = yes an das Ende der URL (so wie das Layout crud zu entfernen) -? Verwenden Sie wget für diese beiden Schritte oder das Äquivalent, es übernimmt die Weiterleitung für Sie.

  3. Pipettiert den resultierenden HTML-Inhalt durch einen HTML-> PDF-Konverter.

  4. Wiederholen Sie 1000 mal.

Das sollte Ihnen eine große Auswahl an Inhalten.

+0

Ich bin mir sicher, dass es auch in den Datenzentren von Wikipedia ein paar Freunde finden wird: p –

+0

Diese Art von Verkehr ist nichts für sie - füge zwischen jeder Anfrage eine kleine Pause ein, um nett zu sein (und sie zu blockieren, um einen zu versuchen ddos), und keine Probleme. – Kazar

+0

Ernsthaft. Sie erhalten Tausende (wenn nicht Zehn- oder Hunderttausende) von Treffern pro Sekunde. Sie werden es nicht im Geringsten bemerken. –

2

Sie können einfach die erweiterte Suche in der Yahoo Search API verwenden, um den gesuchten Dokumenttyp anzugeben.

http://developer.yahoo.com/search/boss/boss_guide/Web_Search.html#optional_args_web

Wenn Sie eine große Anzahl von Word-Dokumente wollen, dann die Art des Dokuments angeben wollen Sie dann eine Suche auf einigen vorgewählten Schlüsselwörtern basiert durchführen. Das sollte dir eine Menge Dokumente zurückgeben.

Sie könnten auch die erweiterte Google-Suche kratzen und die Dokumentverknüpfungen auf diese Weise greifen, indem ein Dateityp spezifiziert (aus einer zufälligen Liste), z:

http://www.google.co.in/search?q=monkey+badger+filetype%3Apdf

+0

Ich hatte Glück, google nach "manual filetype: pdf" zu durchsuchen, um große und vielfältige PDFs zu erhalten, um das Parsing zu testen. – Hardwareguy

Verwandte Themen