Ich habe eine riesige Datei primär aus Buch Metadaten (Autor, Titel, Datum, URL). Mein Problem ist, dass ich mit Autorennamen arbeiten möchte (die oft wiederholt werden: Ein Autor kann Hunderte von Datensätzen haben) und ich möchte mit der Untergruppe dieser Autoren arbeiten, die mehr als X Datensätze haben.Openrefine: Text Facette durch Zählen
Zum Beispiel habe ich 200 Datensätze im Zusammenhang mit "William Shakespeare", aber nur eine 1 Aufzeichnung von "John Black" usw. Der Punkt ist, da dies ein klassisches Machtgesetz ist, habe ich hunderttausende Autoren, die Mehrheit von ihnen mit 1-2 Aufzeichnungen.
Verwenden von "Text Facette"> "zählen" ist unmöglich, weil mein Computer einfriert.
Gibt es eine Abfrage, um die Textfacette von nur einigen Datensätzen basierend auf ihrer Anzahl zu haben?
Haben Sie versucht, benutzerdefinierte Text Facette zu benutzen? Wie zuerst entfernen Sie Leerzeichen (Facette> Benutzerdefinierte Facetten> Facette durch Leerzeichen) und dann benutzerdefinierte Textfacette (Facette> Customized Text Facet). Und wenn es sich um ein Speicherproblem handelt, empfehle ich Ihnen, die Dateien zu halbieren und sie im Stapel zu verarbeiten. – iMitwe
Ja, ich habe es versucht. Ich habe bereits mehr Speicher reserviert, aber ich brauche sowieso die gesamte Datei für andere Operationen. –