2009-07-14 14 views
3

Ich habe eine gute Möglichkeit, dies zu implementieren untersucht. Ich arbeite an einem einfachen Website-Crawler, der eine bestimmte Reihe von Websites umgeht und alle MP3-Links in die Datenbank crawlt. Ich möchte die Dateien nicht herunterladen, nur den Link crawlen, indexieren und in der Lage sein, sie zu durchsuchen. Bis jetzt für einige der Seiten bin ich erfolgreich gewesen, aber für einige benutzen sie URL-Weiterleitungen und Sachen, die den Crawler verwirrt.MP3 Link Crawler

irgendwelche Ideen? Wie indexiert beemp3.com alle diese Links?

dank

Antwort

1

Sie können eine HTTP-Header Anfrage an die Links tun und ihren Mime-Typen überprüfen. Wenn es audio/mpeg ist, hast du wahrscheinlich einen mp3 Link.

0

Here's so etwas wie Ihre Anfrage (Freunde am College verwenden es die ganze Zeit). Nach dem Eintritt von QUERY_TEXT Diese Suche erzeugt eine Google-Abfrage in folgendem Format:

QUERY_TEXT intitle: 
"index.of" "parent directory" "size" "last modified" "description" 
[snd] (mp4|mp3|avi) 
-inurl:(jsp|php|html|aspx|htm|cf|shtml|lyrics|mp3s|mp3|index) 
-gallery 
-intitle:"last modified" 
-intitle:(intitle|mp3) 
+0

Dies wird nicht mp3s durchsuchen, sondern nur Seiten mit Verzeichnislisten einschließlich MP3-Dateien. –

+0

yeah und das kriecht auch nicht wirklich .. ich will sehen, ob ein Skript herumgehen und X Menge von Seiten nur für MP3-Dateien indexieren kann. Danke für die Antwort :) –

0

Welche Programmiersprachen bevorzugen Sie?

Python:
Es ist ein vielversprechender Crawling Rahmen Scrapy (geschrieben in Python) genannt, die zum Django Framework ähnlich aufgebaut ist. Ich habe es noch nicht selbst benutzt, aber ich habe mir Crawler angesehen und Scrapy ist der beste Kandidat. Es ist IIRC nicht bereit aus der Box und erfordert eine minimale Menge an Codierung, aber es ist nach dem DRY-Prinzip entwickelt und ist sehr anpassbar (etwas wie Django gibt Ihnen nicht eine fertige Website direkt nach der Installation).

Es gibt viele verschiedene Methoden für URL redirection und Ihr Crawler muss in der Lage sein, diesen Weiterleitungen zu folgen ODER im schlimmsten Fall in der Lage sein, sie zu ignorieren, so dass es keine Fehlfunktion gibt.

Die Website, die umgeleitet wird zu muss auch in Ihrer Website Whitelist sein.

Können Sie vielleicht Ihre Frage bearbeiten und Details auf Ihrem Crawler hinzufügen; Ist es von Grund auf neu geschrieben, ist es eine schlüsselfertige Lösung, etc?