2012-03-28 9 views
0

Ich habe ein Problem Verständnis folgende Zeile:Hash-Index auf Textdatei

Erstellen Sie einen Hash-Index auf text.txt mit ids als Schlüssel und dem Volltextdatensatz als Daten.

text.txt 
000000010:<status> <id>000000010</id> <created_at>2012/03/11</created_at> <text>@joerogan Played as Joe Savage Rogan in Undisputed3 Career mode, won Pride GP, got UFC title shot against Shields, lost 3 times, and retired</text> <retweet_count>0</retweet_count> <user> <name>Siggi Eggertsson</name> <location>Berlin, Germany</location> <description></description> <url>http://www.siggieggertsson.com</url> </user> </status> 
000000011:<status> <id>000000011</id> <created_at>2012/03/11</created_at> <text>Cat and Metronome: http://t.co/3Z7Aq8Dn</text> <retweet_count>3</retweet_count> <user> <name>Siggi Eggertsson</name> <location>Berlin, Germany</location> <description></description> <url>http://www.siggieggertsson.com</url> </user> </status> 
... 

Ich bin mir nicht sicher, was ich tun soll.

Soll ich eine andere txt-Datei Hash-Index für die Speicherung? Es sieht aus wie id für jede Zeile einzigartig ist und ich brauche nicht auch in diesem Fall zu Hashing. Kann ich dies mit dem Befehl db_load tun?

Vielen Dank für Hilfe im Voraus!

+0

Riecht sehr viel wie Hausaufgaben. Wie wäre es, wenn Sie Ihren Lehrer fragen, was sie meinte? – GreyBeardedGeek

+0

@GreyBeardedGeek sry. wenn es dich störte – user1289238

+1

Du hast mich nicht "gestört". Ich habe vorgeschlagen, dass die Sache, die du nicht verstehst, die Aufgabe ist, die du bekommen hast, und dass du die beste Antwort bekommen würdest, indem du die Person fragst, die dir die Aufgabe gab, was sie meinte. – GreyBeardedGeek

Antwort

0

Der Zweck eines Index-Lookups auf einem Satz von Daten zu beschleunigen. In diesem Fall würde ich erwarten, dass Sie mit Ihrem Index schnell nach Datensätzen aus Ihrer Textdatei suchen können. Der Index hypothetisch einen Tupels zusammengesetzt sein, würde die Datensatz-ID besteht, zusammen mit dem Offset in der Datei, in der die entsprechenden Datensatz beginnt.

Es wäre wahrscheinlich am besten sein, den Index in einer separaten Datei zu speichern - Sie ihm einen Namen geben könnte, die mit der Datei (text.idx zum Beispiel) indiziert zusammenpasst.