Ich habe einen Datensatz so etwas wie unten gezeigt, die im realen Szenario Zeile zwischen 10000 bis 1000000 zählen. Es würde mehr Spalten aber das Kernproblem dreht sich um diese beiden Felder.Python-basierte Multi-Label-Klassifikation
Bekannte Labels
Ich habe Kategorien bekannt -'Apple‘, 'Blueberry', 'orange', 'Salat'
Dataset
DataFrame
({'ROWID':1,2,3,4,5,6,7,8,9,10],
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit'
,'Leaf','Avocado'],
'Details':['Eat one a day ,doctors keep away','Like it in a muffin',
'Tastes yummy','Like it with
salmon','Glass of a juice','Ceser dressing on lettuce','Nothing in my
basket','Like it in a muffin','I like it it with salami','Comes from
Mexico']})
Problem:
Ich habe um eine oder mehrere Metriken zu erstellen mit groupby auf Kategorie
Wenn die Kategorie colum n hat einen unbekannten Zellenwert Ich muss den Text aus den 'Details' lesen und das am besten geeignete Label für die Kategorie vorhersagen. Zum Beispiel
- Salat -> Salat, Obst (Zeile # 5) -> Orange Fruit (Row # 8) -> Blueberry Blatt (Zeile # 9) -> 'Salat' ist es, dass einige verstanden von Die Zeilen können nicht kategorisiert werden.
Hilfe benötigt:
Ich bin ein Neuling in Daten Wissenschaft Algorithmus, für einige Hinweise suchte das richtige Modell zu identifizieren, um das Problem zu lösen.
können Sie den relevanten Code für die Antwort teilen, um hilfreich zu sein. –