Ich versuche Aussagen aus dem Internet zu sammeln, indem für Sätze mit folgendem Aufbau der Suche:Wie würde ich so viele Instanzen des Textes sammeln: "[Thema] sind ..." aus dem Internet?
[subject] [are/is] [rest of sentence].
So zum Beispiel, ich will suchen und alle Sätze zu sammeln, die mit „Computer sind [rest Start von Satz]". Was würde in so etwas wie:
- Computer sind ärgerlich.
- Computer sind großartig.
- Computer sind teuer.
- Etc.
Was ich will ist von Anfang des Satzes, bis die Zeit, alles sammeln (vorzugsweise durch die Rate des Auftretens sortiert).
Gibt es eine Möglichkeit, dies mit vorhandenen Suchmaschinen zu tun, oder müsste ich einen Bot/Scraper bauen?
Möglicherweise können Sie die [HTML-Code-Suchmaschine] (http://globalogiq.com/htmlcodesearch.htm) von Globalogic verwenden, mit der Sie Webseiten auf der HTML-Quellebene durchsuchen und reguläre Ausdrücke verwenden können. Ich habe es nicht versucht, also kann es vielleicht nicht tun, was du willst. –
@MrLister: Sieht aus wie eine gute Idee, aber sie sammeln nur HTML von Homepages (also keine verschachtelten Seiten).Das ist ziemlich bedauerlich, weil ich auch verschachtelte Seiten durchsuchen möchte, da sonst die Ergebnisse eher spärlich sein können. Abgesehen davon ist es auch ein kostenpflichtiger Service, und ich würde gerne eine langfristige Lösung finden. –
Keine wirklich beste oder definitive Antwort. Im Grunde ist dies schwierig, und es erfordert entweder viel Zeit. Crawlen oder Verwenden bereits existierender Datenbanken (und Festlegen, wozu sie in der Lage sind). –