Tokenize Textinhalt mit Spark SQL?

Ich arbeite an der Umsetzung einer Anforderung zum Erstellen eines Wörterbuchs von Wörtern zu Dokumenten mit Apache Funke und Mongodb.Tokenize Textinhalt mit Spark SQL?

In meinem Szenario habe ich eine Mongo-Sammlung, in der jedes Dokument einige Textfelder sowie ein Feld für den Besitzer des Dokuments enthält.

Ich möchte den Textinhalt in Auflistungsdokumenten analysieren und ein Wörterbuch erstellen, das Wörter den Dokumenten- und Eigentümerfeldern zuordnet. Grundsätzlich wäre der Schlüssel ein Wort und Wert wäre _id und Besitzer Feld.

Die Idee besteht darin, automatische Vorschläge für den Benutzer bereitzustellen, wenn er das Textfeld auf der Benutzeroberfläche basierend auf den Benutzerdokumenten eingibt. Ein Benutzer kann mehrere Dokumente erstellen und ein Wort kann sich in mehreren Dokumenten befinden, aber nur ein Benutzer kann ein Dokument erstellen.

Ich benutzte Mongo Spark Connector und ich bin in der Lage, die Sammlung Dokumente in einem Datenrahmen mit Spark sql zu laden.

Ich bin mir nicht sicher, wie man die Textdaten verarbeitet, die in einer der Datenframe-Spalten jetzt sind, um die Wörter zu extrahieren.

Gibt es eine Möglichkeit mit Spark-SQL des Textinhalt in der Datenrahmensäule zu verarbeiten/tokenize Worte zu extrahieren und zu _id und Besitzern Felder zuordnen und die Ergebnisse in einer anderen Sammlung zu schreiben.

Wenn nicht, kann mir jemand bitte den richtigen Ansatz/Schritte sagen, wie ich es erreichen kann.

Quelle

2017-05-07 fezdonna

Spark unterstützt die Tokenisierung und andere Textverarbeitungsaufgaben, befindet sich jedoch nicht in der Core-Bibliothek. Kasse der Spark-MLlib: https://spark.apache.org/docs/2.1.0/ml-guide.html

und genauer die Transformers, die auf Datenrahmen wie arbeiten:
https://spark.apache.org/docs/2.1.0/ml-features.html#tokenizer

Quelle

2017-05-08 06:49:06

Tokenize Textinhalt mit Spark SQL?

Antwort

Verwandte Themen