Parser teilt die HTML in Stücke, so dass Daten von der Seite extrahiert werden können. Dies hat 2 Unterkomponenten dazu, die ...
a. Extrahiert alle Daten von der Seite, die Sie erfassen möchten & speichert dann diese Daten in einer Datenbank.
b. Extrakte Links & platziert sie zurück in die Crawling-Warteschlange. Dadurch entsteht eine Endlosschleife, so Bot nie krabbeln stoppt ... (Es sei denn, jemand anderes ungültige URL stürzt, was viel passiert. Also bereit sein, es häufig zu beheben.)
Indexer Lookup-Indizes erstellt, welche Schlüsselwörter dem Inhalt der Webseite zuordnen. Dies hat 2 Unterkomponenten dazu, wie es ...
a. Erstellt einen Forward Index, der jedes Dokument Schlüsselwörtern zuordnet, die sich in diesem Dokument befinden.
doc1 | bird, aviary, robin, dove, blue jay, cardinal
doc2 | birds, bird watching, binoculars
doc3 | cats, eat, birds
doc4 | cats, generally, don't, like, water, nor, neighborhood, dogs
doc5 | dog, shows, look, fun
b. Erstellt einen Inverted Index aus dem Forward-Index, der die Indizes umkehrt. Dies ermöglicht Benutzern, nach Schlüsselwort & suchen, dann schlägt das Suchskript & schlägt vor, welche Dokumente, die Benutzer anzeigen möchten. Wie so ...
bird | doc1, doc2
cat | doc3, doc4
dog | doc4, doc5
Könntest du bitte dein Q so bearbeiten, dass es nicht als 1 langer Durchlaufsatz gelesen wird? Würden Sie bitte auch erklären, was das Akronym GCSE ist? Ich habe dieses Akronym vorher nicht gesehen. – Clomp