2016-08-09 17 views
0

Ich habe eine sehr große Menge von Beiträgen & Kommentare, als eine Liste von Kanten dargestellt:Wie modelliert man Bäume in Spark?

children_id, parent_id 

Diese Paare sind Kanten in verschiedenen Bäumen.

möchte ich finden, für jeden children_id, der Wurzelstift:

children_id, parent_id, root_id 

Wie kann ich effizient, dass in Funken?

Meine Vermutung ist, dass ich eine Broadcast-Variable verwenden müsste, um einen Lookup-Schlüssel unter den Knoten zu teilen.

+0

Was sind diese children_id und parent_id? Sind sie ganze Zahlen? Wie viele von Ihnen haben Sie? – evgenii

Antwort

0

Es hängt davon ab, was Sie tun müssen.

Wenn Sie nur brauchen, um die Root-Post-ID zu finden, dann scheint die Verwendung einer Broadcast-Variable, um eine Suche zu teilen scheint völlig in Ordnung.

Wenn Sie viel Baum (oder allgemeiner Graph Verarbeitung) tun müssen, dann schauen Sie sich die neue Graphframe API an.

https://databricks.com/blog/2016/03/03/introducing-graphframes.html

+0

Wenn das möglich ist, um alles in eine Karte zu setzen und das zu übertragen, dann brauchst du keinen Apache Funke. Du brauchst nichts. Schau es dir in ein paar Threads an ... – evgenii

Verwandte Themen