2016-08-24 4 views
0

Ich habe ein Datenrahmen wie folgt aus:mit Wildcard in Spark-SQL

+-------------------------------------------+ 
|url          | 
+-------------------------------------------+ 
|/v3/references/genders      | 
|/en/job/restaurant-manager-6619735/panels | 
|/en/job-search/dealer-coordinator-jobs/ | 
|/en/job/engineer-3034030/panels   | 
|/en/job/business-analyst-5385899   | 
+-------------------------------------------+ 

Ich versuche, die Zählung für jede URL zu erhalten, die ‚Job‘ enthält. Ich habe das versucht, aber ich habe ein leeres Ergebnis bekommen.

df.createOrReplaceTempView("table") 
spark.sql("select url, count(url) from table where url like 'job'").show() 

Was ist falsch mit diesem SQL? Danke!

Antwort

0

Versuchen Sie dies.

spark.sql("select url, count(url) from table where url like '%job%' GROUP BY url").show() 
+0

danke! funktioniert jetzt –