ich zum Extrahieren von Sätzen aus allen Dateien in einem Verzeichnis die MySentences
Klasse verwendet und verwenden diese Sätze für Zug ein word2vec Modell. Mein Datensatz ist nicht markiert.GENSIM Doc2Vec - Pass corpus Sätze Doc2Vec Funktion
class MySentences(object):
def __init__(self, dirname):
self.dirname = dirname
def __iter__(self):
for fname in os.listdir(self.dirname):
for line in open(os.path.join(self.dirname, fname)):
yield line.split()
sentences = MySentences('sentences')
model = gensim.models.Word2Vec(sentences)
Jetzt möchte ich diese Klasse verwenden, um ein doc2vec Modell zu machen. Ich lese Doc2Vec Referenzseite. Doc2Vec()
Funktion erhält Sätze als Parameter, aber es nimmt nicht über Sätze variabel und Return-Fehler:
AttributeError: 'list' object has no attribute 'words'
Was ist das Problem? Was ist der korrekte Typ dieses Parameters?
Update:
denke ich, sind unmarkierte Daten das Problem. Es scheint, dass doc2vec beschriftete Daten benötigt.
Above-Code für mich läuft finden! Python 2.7 und Gensim 0.12 – kampta
Sie haben Recht. Ich möchte diese Klasse verwenden, um ein doc2vec-Modell zu erstellen. –