2016-11-02 3 views
2

Ich habe eine riesige Datei primär aus Buch Metadaten (Autor, Titel, Datum, URL). Mein Problem ist, dass ich mit Autorennamen arbeiten möchte (die oft wiederholt werden: Ein Autor kann Hunderte von Datensätzen haben) und ich möchte mit der Untergruppe dieser Autoren arbeiten, die mehr als X Datensätze haben.Openrefine: Text Facette durch Zählen

Zum Beispiel habe ich 200 Datensätze im Zusammenhang mit "William Shakespeare", aber nur eine 1 Aufzeichnung von "John Black" usw. Der Punkt ist, da dies ein klassisches Machtgesetz ist, habe ich hunderttausende Autoren, die Mehrheit von ihnen mit 1-2 Aufzeichnungen.

Verwenden von "Text Facette"> "zählen" ist unmöglich, weil mein Computer einfriert.

Gibt es eine Abfrage, um die Textfacette von nur einigen Datensätzen basierend auf ihrer Anzahl zu haben?

+1

Haben Sie versucht, benutzerdefinierte Text Facette zu benutzen? Wie zuerst entfernen Sie Leerzeichen (Facette> Benutzerdefinierte Facetten> Facette durch Leerzeichen) und dann benutzerdefinierte Textfacette (Facette> Customized Text Facet). Und wenn es sich um ein Speicherproblem handelt, empfehle ich Ihnen, die Dateien zu halbieren und sie im Stapel zu verarbeiten. – iMitwe

+0

Ja, ich habe es versucht. Ich habe bereits mehr Speicher reserviert, aber ich brauche sowieso die gesamte Datei für andere Operationen. –

Antwort

3

Erstellen Ihnen einen benutzerdefinierter Text Facette mit dem Ausdruck folgenden GREL (ersetzen COLUMNS_NAME durch Ihren tatsächlichen Spaltennamen):

facetCount(value, "value", "COLUMN_NAME") > 100

Sie den Vergleich bearbeiten können (im Beispiel jeden großen als 100 zählen).

Um nur genaue Anzahl Spiel angezeigt werden müssen Sie zwei == wie folgt verwenden:

facetCount(value, "value", "COLUMN_NAME") == 100

Mehr Details zu diesem video + tutorail on facet by facet count

+0

Danke! Das ist es –

Verwandte Themen