2015-10-27 7 views
5

Ich frage mich, ob Google BigQuery derzeit unterstützt Parquet file format oder wenn es Pläne gibt, es zu unterstützen?Unterstützt Google BigQuery das Parquet-Dateiformat?

Ich weiß, dass es derzeit unterstützt CSV und JSON-Formate.

+0

Vielen Dank für die Anfrage. Ich habe eine Feature-Anfrage zum Hinzufügen von Parkett geöffnet. Bitte fügen Sie Ihren Anwendungsfall dort hinzu. Es wird uns helfen, das Interesse von außen zu bewerten. Hier ist es: https://code.google.com/p/google-bigquery/issues/detail?id=355&thanks=355&ts=1446053772 –

Antwort

6

** Ab dem 1. März 2018 ist Unterstützung für loading Parquet files verfügbar.

Mit der Version 2.0.24 von BigQuery CLI gibt es --source_format PARQUET Option, die in Ausgabe von bq --help beschrieben wird.

Wenn ich versuche, es in meinem Projekt zu verwenden, erhalte ich einen Fehler. Basierend auf dem Lesen des verknüpften BigQuery-Tickets scheint die Unterstützung für das Laden von Parkett derzeit nur eingeladen zu sein.

% bq load --source_format PARQUET test.test3 data.avro.parquet schema.json Upload complete. Waiting on bqjob_r5b8a2b16d964eef7_0000015b0690a06a_1 ... (0s) Current status: DONE
BigQuery error in load operation: Error processing job 'msgqegcp:bqjob_r5b8a2b16d964eef7_0000015b0690a06a_1': Loading of parquet file format is not enabled

Mein usecase ist, dass das Parkett Datei halb so groß wie die Avro-Datei. Ich wollte etwas Neues ausprobieren und Daten effizient hochladen (in dieser Reihenfolge).

+0

Der Fehler, den Sie haben, sagte "nicht aktiviert". In dieser Ausgabe https://issuetracker.google.com/issues/35905411 sehe ich, dass Projekte aktiviert werden, um dies zu verwenden. Vielleicht ist dies nur eine Frage der Funktion "Beta" und muss aktiviert werden, damit Sie experimentieren können. –

1

Zu diesem Zeitpunkt unterstützt BigQuery das Parquet-Dateiformat nicht. Wir sind jedoch interessiert, mehr über Ihren Anwendungsfall zu erfahren - interessieren Sie sich für Import, Export oder beides? Wie wollen Sie es nutzen? Wenn Sie die Szenarien besser verstehen, kann das BigQuery-Team entsprechend planen.

+0

Danke für die schnelle Antwort! Ich habe im Moment keinen spezifischen Anwendungsfall. Wir importieren CSV-Dateien derzeit in BigQuery und ich frage mich, ob es noch funktionieren würde, wenn wir das Format in Parkett ändern würden. Das Speichern der Dateien in Parquet oder ORC würde uns die Möglichkeit bieten, die Dateien in Hadoop schneller analysieren zu können als mit CSV-Dateien. – YABADABADOU

1

Wenn Sie ein Dateiformat zwischen BigQuery und Hadoop freigeben möchten, können Sie durch Zeilentrennung getrennte JSON-Datensätze verwenden.

BigQuery unterstützt diese für Import und Export.

Hadoop unterstützt dies ebenfalls. Die Suche nach dem Internet findet viele Treffer, die Rezepte zeigen, damit es funktioniert. Hier ist eine: Processing JSON using java Mapreduce

0

Wenn Sie mit Hunderten von Millionen von Zeilen zu tun haben und Daten zu einem lokalen Hadoop-Cluster zu verschieben, ist dies, von BigQuery exportieren, json ist einfach nicht machbare Option, avro nicht viel besser, die einzige effiziente Option heute für solche Bewegung von Daten ist gz, die leider nicht möglich ist, in Hadoop nativ zu lesen, Larquet ist der einzige effiziente Weg für diesen Anwendungsfall, wir haben keine andere effiziente Option