Ich habe eine Liste der Titel:Unable Sätze tokenize GENSIM und nltk in Python mit
> print(data)
>
0 Manager
1 Electrician
3 Carpenter
4 Electrician & Carpenter
...
ich die am engsten verwandten Titel zu finden, zu verwenden versuche GENSIM.
Der Code, den ich habe, ist:
import os
import pandas as pd
import nltk
import gensim
from gensim import corpora, models, similarities
from nltk.tokenize import word_tokenize
df = pd.read_csv('df.csv')
corpus = pd.DataFrame(df, columns=['Job Title'])
tokenized_sents = [word_tokenize(i) for i in corpus]
model = gensim.models.Word2Vec(tokenized_sents, min_count=1)
model.most_similar("Electrician")
Wenn ich tokenization leite jeden Titel als Satz (tokenized_sents Variable) tokenize, es tokenizes nur den Header:
> tokenzied_sents
> [['Job', 'Title']]
Was bin ich falsch machen?
Ich bin in der Lage, mit Corpus ['Job TItle'] [i] zu iterieren, aber wenn ich zu Model.most_similar ("Manager") komme, erhalte ich einen Fehler 'Wort' Product Manager 'nicht im Wortschatz' . Wo würde ich das Vokabular angeben? –