Ich habe eine sehr große Menge von Beiträgen & Kommentare, als eine Liste von Kanten dargestellt:Wie modelliert man Bäume in Spark?
children_id, parent_id
Diese Paare sind Kanten in verschiedenen Bäumen.
möchte ich finden, für jeden children_id, der Wurzelstift:
children_id, parent_id, root_id
Wie kann ich effizient, dass in Funken?
Meine Vermutung ist, dass ich eine Broadcast-Variable verwenden müsste, um einen Lookup-Schlüssel unter den Knoten zu teilen.
Was sind diese children_id und parent_id? Sind sie ganze Zahlen? Wie viele von Ihnen haben Sie? – evgenii