2017-02-18 1 views
3

Bei dem Versuch, zu laden, einen Funken 1.6.x Parkett-Datei in Funken 2.X Ich sehe viele WARN Ebene Aussagen zu lesen.Warnungen versuchen Funken 1.6.x Parkett in Spark-2.X

16/08/11 12:18:51 WARN CorruptStatistics: Ignoring statistics because created_by could not be parsed (see PARQUET-251): parquet-mr version 1.6.0 
    org.apache.parquet.VersionParser$VersionParseException: Could not parse created_by: parquet-mr version 1.6.0 using format: (.+) version ((.*))?\(build ?(.*)\) 
    at org.apache.parquet.VersionParser.parse(VersionParser.java:112) 
    at org.apache.parquet.CorruptStatistics.shouldIgnoreStatistics(CorruptStatistics.java:60) 
    at org.apache.parquet.format.converter.ParquetMetadataConverter.fromParquetStatistics(ParquetMetadataConverter.java:263) 
    at org.apache.parquet.format.converter.ParquetMetadataConverter.fromParquetMetadata(ParquetMetadataConverter.java:567) 
    at org.apache.parquet.format.converter.ParquetMetadataConverter.readParquetMetadata(ParquetMetadataConverter.java:544) 
    at org.apache.parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:431) 
    at org.apache.parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:386) 
    at org.apache.spark.sql.execution.datasources.parquet.SpecificParquetRecordReaderBase.initialize(SpecificParquetRecordReaderBase.java:107) 
    at org.apache.spark.sql.execution.datasources.parquet.VectorizedParquetRecordReader.initialize(VectorizedParquetRecordReader.java:109) 
    at org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat$$anonfun$buildReader$1.apply(ParquetFileFormat.scala:369) 
    at org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat$$anonfun$buildReader$1.apply(ParquetFileFormat.scala:343) 
    at [rest of stacktrace omitted] 

Ich bin 2.1.0 Release ausgeführt und es gibt viele dieser Warnungen. Gibt es eine Möglichkeit, den Protokollierungslevel auf ERROR zu ändern, um diese zu unterdrücken?

Es scheint diese das Ergebnis einer fix gemacht war - aber die Warnungen noch nicht entfernt werden. Hier sind einige Details aus dem JIRA:

https://issues.apache.org/jira/browse/SPARK-17993

ich den Code aus dem PR aufgebaut haben und es gelingt in der Tat die Daten zu lesen. Ich habe versucht, df.count tun() und jetzt bin ich mit Warnungen wie diese wimmelte (sie sind nur endlos in das Terminal gedruckt werde immer):

Einstellung der Protokollebene auf ERROR ist ein letzter Graben Ansatz: Es schluckt Nachrichten, auf die wir uns bei der Standardüberwachung verlassen. Hat jemand einen Workaround zu diesem gefunden?

Antwort

4

Zur Zeit - also bis/es sei denn, dieser Funke/Parkett Fehler behoben wurden - werde ich folgendes zum log4j.properties das Hinzufügen:

log4j.logger.org.apache.parquet=ERROR 

Die Lage ist:

  • wenn läuft gegen externe Funken Server: $SPARK_HOME/conf/log4j.properties

  • wenn lokal innerhalb Intellij (oder andere IDE): src/main/resources/log4j.properties

+0

Können Sie weitere Details angeben, wo Sie die folgende Zeile aktualisieren? log4j.logger.org.apache.parquet = FEHLER, d. h. in Hive log4j.properties? – Jay

+0

@Jay. Entschuldigung, ich habe deinen Kommentar bis jetzt nicht bemerkt. Meine Antwort für diese Information aktualisiert. – javadba

Verwandte Themen