2016-04-13 5 views
0

Ich habe eine sehr einfache Suchoption für mein Blog erstellt, und nach Themen und Schlüsselwörtern erzeugt es Ergebnisse, aber was ich suche, ist in bestimmten Artikeln, die ich hinzufügen muss Also, wenn meine Suche durch diese Links gehen kann, die im Grunde externe Websites sind, zum Beispiel, wenn ich mich auf jemand anderen blog für mehr Informationen dann suchen, um von diesem zu suchen. Ist es möglich? Und ich möchte nicht GCSE gehen. Vielen Dank im Voraus. Es wird eine große Hilfe sein.Suchmaschine für eine blog_website (Suche innerhalb von Links)

Nochmals vielen Dank.

+0

Könntest du bitte dein Q so bearbeiten, dass es nicht als 1 langer Durchlaufsatz gelesen wird? Würden Sie bitte auch erklären, was das Akronym GCSE ist? Ich habe dieses Akronym vorher nicht gesehen. – Clomp

Antwort

0

Ja, es ist möglich, einen Bot zu schreiben, um externe Websites von Links zu crawlen. Ich habe eins gemacht. Es hat 100K + Website-URLs gecrawlt. Also ja, es ist möglich, einen zu erstellen, der Links von Ihrem Blog crawlen kann.

Um eine Suchmaschine zu erstellen, finden Sie einige Interna wissen müssen darüber, wie sie funktionieren ...

Suche Bots Arbeit wie folgt aus:

  1. Crawler holt Seiten. Dieser Schritt ist ziemlich einfach, da curl verwendet wird.
  2. Parser teilt die HTML in Stücke, so dass Daten von der Seite extrahiert werden können. Dies hat 2 Unterkomponenten dazu, die ...

    a. Extrahiert alle Daten von der Seite, die Sie erfassen möchten & speichert dann diese Daten in einer Datenbank.

    b. Extrakte Links & platziert sie zurück in die Crawling-Warteschlange. Dadurch entsteht eine Endlosschleife, so Bot nie krabbeln stoppt ... (Es sei denn, jemand anderes ungültige URL stürzt, was viel passiert. Also bereit sein, es häufig zu beheben.)

  3. Indexer Lookup-Indizes erstellt, welche Schlüsselwörter dem Inhalt der Webseite zuordnen. Dies hat 2 Unterkomponenten dazu, wie es ...

    a. Erstellt einen Forward Index, der jedes Dokument Schlüsselwörtern zuordnet, die sich in diesem Dokument befinden.

    doc1 | bird, aviary, robin, dove, blue jay, cardinal 
    doc2 | birds, bird watching, binoculars 
    doc3 | cats, eat, birds 
    doc4 | cats, generally, don't, like, water, nor, neighborhood, dogs 
    doc5 | dog, shows, look, fun 
    

    b. Erstellt einen Inverted Index aus dem Forward-Index, der die Indizes umkehrt. Dies ermöglicht Benutzern, nach Schlüsselwort & suchen, dann schlägt das Suchskript & schlägt vor, welche Dokumente, die Benutzer anzeigen möchten. Wie so ...

    bird | doc1, doc2 
    cat | doc3, doc4 
    dog | doc4, doc5 
    

Suchmasken Arbeit wie folgt aus:

  1. Suche Formular zeigt die HTML-Eingabefeld für den Benutzer.
  2. Suchen Das Skript durchsucht den invertierten Index, um zu ermitteln, welche Dokumentverknüpfungen auf der Suchergebnisseite angezeigt werden.
  3. S earch E ngine R rgebnisse P Alter (ja, SERP ist eine tatsächliche Industrie Abkürzung für Search Engine Results Page). Dies zeigt die Liste der Suchergebnislinks an. Sie können es beliebig gestalten & es muss nicht wie Google's, Microsofts Bing oder Yahoos Motoren aussehen.

Beispiele:

Suche nach:

"bird" returns links to "doc1, doc2" 
"cat" returns links to "doc3, doc4" 
"dog" returns links to "doc4, doc5" 

Viel Glück für Ihr Blog Ihre Suchmaschine bauen!

+0

Vielen Dank für deine Antwort, ich werde daran arbeiten und komme definitiv mit mehr Zweifel zurück :) –