2016-05-31 18 views
1

Ich habe 2 Datenfelder in Apache Funke.Suchen Sie einen Datenrahmen mit einem anderen Datenrahmen oder RDD

df 1 hat die Show an und Beschreibungen ... die Daten sieht aus wie

show_no | Beschreibung
ein | das ist mikey
b | Hier kommt Donald
c | mary und george gehen nach hause
d | Mary und George in die Stadt kommen

und der zweite Datenrahmen hat die Zeichen

Zeichen
george
donald
mary
minnie

ich die Show suchen müssen Beschreibung eines, um herauszufinden, welches Merkmal welche Zeichen zeigt ...

die endgültige Ausgabe sollte wie folgt aussehen:

Zeichen | showcharacterisin
george | c, d
Donald | b
mary | c.d
minnie | No Show

Diese Datensätze sind erfunden und einfach, aber es drückt die Suchfunktion aus, die ich versuche zu implementieren. Ich muss im Grunde den Text von 1 Datenrahmen mit den Werten von einem anderen Datenrahmen suchen.

Dies wäre leicht zu tun in einem udf innerhalb von SQL-Server, würde ich grundsätzlich die Show descrip jedes Mal durchlaufen und die Show keine Verwendung einer "enthält" Suche auf der Beschreibung zurückgeben.

das Problem, das ich habe, ist, dass ich keine Möglichkeit sehe, dies mit einem Datenrahmen zu tun.

Antwort

0

1) Ich denke, Sie sollten die erste Datenmenge weiter zerlegen, so dass show_no jedem Wort in der Beschreibung zugeordnet wird. bei Bedarf Für beispiele erste Reihe aufgeschlüsselt wie

show_no | descrip 
a | this 
a | is 
a | mikey 

2) Sie können die Stoppwörter aus diesem herausfiltern konnte.

3) Danach können Sie es mit "Zeichen" verbinden, um die endgültige gewünschte Ausgabe zu erhalten.

Hoffe, das hilft. Amit

Verwandte Themen