Ich habe fünf Textdateien, die ich in einen CountVectorizer eingegeben habe. Wenn min_df und max_df für die CountVectorizer-Instanz angegeben werden, was genau bedeutet die min/max-Dokumenthäufigkeit? Ist es die Häufigkeit eines Wortes in der jeweiligen Textdatei oder ist es die Häufigkeit des Wortes im gesamten Korpus (5 txt-Dateien)?min_df und max_df in scikit verstehen CountVectorizer
Wie ist es anders, wenn min_df und max_df als Ganzzahlen oder als Gleitkommazahlen angegeben werden?
Die Dokumentation scheint weder eine gründliche Erklärung zu liefern, noch gibt sie ein Beispiel, um die Verwendung von min_df und/oder max_df zu demonstrieren. Kann jemand eine Erklärung oder ein Beispiel geben, um min_df oder max_df zu demonstrieren?
Das ist verwirrend. Die Dokumentation für "min_df" lautet: "Ignoriere Begriffe, die eine Dokumenthäufigkeit ** haben, die streng unter dem angegebenen Schwellenwert liegt." Eine Frequenz, die streng unter dem Standardwert von 1 liegt, würde bedeuten, Begriffe zu ignorieren, die nie erscheinen (!), Aber Begriffe, die einmal vorkommen. –
@MonicaHeddneck ist korrekt. Diese Antwort interpretiert die genauen Bedeutungen von "min_df" und "max_df" falsch. Ich habe eine Antwort hinzugefügt, die genau erklärt, wie diese Parameter von CountVectorizer interpretiert werden. –