Problem:Erstellen von Dokumentindex von Wortpositionen
ich Indizierung ausführen soll durch eine Datenstruktur in Python zu schaffen, die alle Wörter aus einer bestimmten Textdatei gespeichert werden und wird auch seine Zeilennummern speichern (alle Zeilen, in denen diese Wörter erscheinen) und auch die Position des Wortes (Spalte #) in dieser bestimmten Zeile.
Bis jetzt kann ich die Wörter im Wörterbuch speichern, indem ich alle Zeilennummern in einer Liste anhefte, aber ich kann ihre Positionen in dieser bestimmten Zeile nicht speichern.
Ich brauche diese Datenstruktur für das schnellere Suchen von Textdateien.
Hier ist mein Code bis jetzt:
from collections import defaultdict
thetextfile = open('file.txt','r')
thetextfile = thetextfile.read()
file_s = thetextfile.split("\n")
wordlist = defaultdict(list)
lineNumber = 0
for (i,line) in enumerate(file_s):
lineNumber = i
for word in line.split(" "):
wordlist[word].append(lineNumber)
print(wordlist)
was das Format von deine Textdatei? – Leonid
@Leonid, Es kann von jedem Format sein. –
@EdwinvanMierlo, ich bin ein Neuling für Python, ich bin nicht in der Lage, gut voranzukommen. –