Ich habe eine Reihe von eindeutigen Worten h_unique
genannt. Ich habe auch eine 2D-Liste von Dokumenten h_tokenized_doc
genannt, die eine Struktur wie hat:
schneller Weg, um Vorkommen in einer Liste in Python zu finden
[ ['hello', 'world', 'i', 'am'],
['hello', 'stackoverflow', 'i', 'am'],
['hello', 'world', 'i', 'am', 'mr'],
['hello', 'stackoverflow', 'i', 'am', 'pycahrm'] ]
und h_unique
als:
('hello', 'world', 'i', 'am', 'stackoverflow', 'mr', 'pycharm')
, was ich will, ist das Auftreten der einzigartigen Worte in den Token versehen finden Dokumentenliste.
Bis jetzt kam ich mit diesem Code, aber das scheint SEHR langsam zu sein. Gibt es dafür einen effizienten Weg?
term_id = []
for term in h_unique:
print term
for doc_id, doc in enumerate(h_tokenized_doc):
term_id.append([doc_id for t in doc if t == term])
In meinem Fall habe ich eine Dokumentenliste von 7000 Dokumenten, strukturierte wie:
[ [doc1], [doc2], [doc3], ..... ]
Ja, ich habe ganz vergessen in dem Code einzufügen. Es wurde aktualisiert. – MrPyCharm
Sie fügen 'doc' hinzu, was kein einziges Wort ist; es ist eine Unterliste von 'h_tokenized_doc'. Und du hängst es 'für t in doc' Zeiten an. Wolltest du das machen? –
Entschuldigung, das war ein Tippfehler – MrPyCharm