2017-09-08 3 views
0

Ich habe einen Datensatz so etwas wie unten gezeigt, die im realen Szenario Zeile zwischen 10000 bis 1000000 zählen. Es würde mehr Spalten aber das Kernproblem dreht sich um diese beiden Felder.Python-basierte Multi-Label-Klassifikation

Bekannte Labels

Ich habe Kategorien bekannt -'Apple‘, 'Blueberry', 'orange', 'Salat'

Dataset

DataFrame 
({'ROWID':1,2,3,4,5,6,7,8,9,10], 
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit' 
,'Leaf','Avocado'], 
'Details':['Eat one a day ,doctors keep away','Like it in a muffin', 
'Tastes yummy','Like it with 
salmon','Glass of a juice','Ceser dressing on lettuce','Nothing in my 
basket','Like it in a muffin','I like it it with salami','Comes from 
Mexico']}) 

Problem:

Ich habe um eine oder mehrere Metriken zu erstellen mit groupby auf Kategorie

Wenn die Kategorie colum n hat einen unbekannten Zellenwert Ich muss den Text aus den 'Details' lesen und das am besten geeignete Label für die Kategorie vorhersagen. Zum Beispiel

  • Salat -> Salat, Obst (Zeile # 5) -> Orange Fruit (Row # 8) -> Blueberry Blatt (Zeile # 9) -> 'Salat' ist es, dass einige verstanden von Die Zeilen können nicht kategorisiert werden.

Hilfe benötigt:

Ich bin ein Neuling in Daten Wissenschaft Algorithmus, für einige Hinweise suchte das richtige Modell zu identifizieren, um das Problem zu lösen.

Antwort

0

Verwenden Sie Naive Bayes für die Spalte Details, bevor Sie eine einfache Filterung für die Spalte Kategorie durchführen und Zeilen mit bekannten Kategorienwerten entfernen.

+0

können Sie den relevanten Code für die Antwort teilen, um hilfreich zu sein. –