2016-11-11 4 views
0

Ich benutze Pandas, um Daten in Python zu manipulieren.Convert Java ResultSet in Spark DataFrame

Ich ging durch Sparks DataFrame und wollte diese Struktur für ein Programm verwenden, das ich in Java entwickle.

Ich habe meine Daten in SQL Server, ich habe die SQL-Ergebnisse in ResultSet. Ich möchte dies in DataFrame konvertieren

Wie kann ich diese Konvertierung machen? Gibt es eine einfachere Möglichkeit, SQL-Ergebnisse direkt in DataFrame zu konvertieren?


EDIT: Ich habe versucht, SQL Server über SparkSession unten Details

public static SparkSession spark = SparkSession 
     .builder() 
      .master("local[*]") 
     .appName("Java Spark SQL basic example") 
     .getOrCreate(); 

    Map<String, String> options = new HashMap<String, String>(); 
    options.put("url", "jdbc:jtds:sqlserver://<clipped>"); 
    spark.read().format("jdbc").options(options).load(); 

    Dataset<Row> sqlDF = spark.sql("SELECT TOP 1 * FROM HEDE); 

Jetzt erhalte ich Exception in thread "main" java.lang.RuntimeException: Option 'dbtable' not specified Wie/wo kann ich Tabelle angeben zu verbinden?

Antwort

0

Sie können Tabelle in Optionen angeben:

options.put("dbtable", "some_table"); 

oder mit JDBC-Methode:

spark.read().jdbc("jdbc:jtds:sqlserver://<clipped>", "some_table", properties) 

wo propertiesjava.util.Properties ist.