Ich verstehe aus der Dokumentation für Dataproc seine Daten aus BigQuery mit PysPark lesen, aber es ist ein Vorteil, wenn Kmeans Clustering auf ndarrays mit einer Form (xxxxxxx,) über sagen liest eine Datei-Darstellung von CloudStorage stattGibt es Vorteile bei der Verwendung von BigQuery als Datenquelle von ndarrays für Dataproc bei der Berechnung von Kmeans Clustering mit Python
0
A
Antwort
1
Wenn Sie nicht beabsichtigen, andere Manipulation Ihrer Daten in BigQuery zu tun, dann würden Sie nichts aus dem Speichern Ihrer Daten in BigQuery gewinnen für diesen Anwendungsfall.
Per https://cloud.google.com/hadoop/bigquery-connector,
Der BigQuery-Anschluss für Hadoop-Downloads von Daten in Ihren Google Cloud Storage Eimer vor einem Hadoop Job ausgeführt wird.
Mit anderen Worten, der Connector führt kein Push-Down-Prädikat durch oder nutzt anderweitig BigQuery für die Berechnung. Dieser Connector ist nur eine bequeme Methode, um auf Daten zuzugreifen, die Sie bereits in BigQuery speichern oder generieren.
Verwandte Themen
- 1. AssertionError bei Verwendung von NLTK KMeans Clustering
- 2. Gibt es Nachteile bei der Verwendung von AJAX als RIA?
- 3. Python KMeans Clustering Worte
- 4. Gibt es irgendwelche Vorteile bei der Verwendung von size_t anstelle von unsigned int?
- 5. Gibt es irgendwelche Vorteile bei der Verwendung von const-Parametern mit einem ordinalen Typ?
- 6. Welche Schwächen gibt es bei der Verwendung von Erlang?
- 7. gnuplot Syntaxfehler bei der Verwendung von Python
- 8. Was sind die Vorteile bei der Verwendung von Qt?
- 9. Fehler bei der Verwendung von unterschwelligem Python
- 10. Python Fehler bei der Verwendung von urllib.open
- 11. Berechnung der CPU-Zeit bei Verwendung von MPI
- 12. Berechnung der AUC bei Verwendung von Vowpal Wabbit
- 13. Gibt es Leistungseinbußen bei der Verwendung mehrerer Instanzen von CLLocationManager
- 14. Reactjs: Gibt es Vorteile bei der Verwendung von React-Komponenten gegenüber normalen Funktionen?
- 15. Gibt es Nachteile bei der Verwendung von -O3 in GCC?
- 16. Es gibt einige Fehler bei der Verwendung von Passenger
- 17. Probleme bei der Verwendung von Pip für Python
- 18. Langformatige Verarbeitung bei der Berechnung von Fakultät
- 19. Python: Begrenzung der String-Länge bei der Verwendung von isalpha
- 20. Technische Gründe hinter der Verwendung von Arrays.deepHashCode() bei der Berechnung von Hashcode für mehrdimensionale Array
- 21. Vorteile der Verwendung von IEquatable
- 22. bei der Verwendung von EditorFor
- 23. BigQuery Problem mit Select bei Verwendung von AS
- 24. Verbergen der Eingabeaufforderung bei der Verwendung von Python
- 25. Was sind die Vorteile/Vorteile der Verwendung von Python 3?
- 26. unaufgelöste Referenz bei der Verwendung von pylab
- 27. Was ist los mit der Verwendung von Identity Monad mit mmultP bei der Verwendung von Repa?
- 28. Prozent bei der Berechnung
- 29. Gibt es einen Effizienzvorteil bei der Verwendung von INT vs GUID für einen Primärschlüssel?
- 30. Vorteile der Verwendung von Rhino (Mozilla Nashorn)
Würden Sie eine Leistungsverbesserung erwarten oder eine skalierbarere Lösung haben, indem Sie BigQuery als Datenquelle verwenden? – mobcdi
Nein; eigentlich das Gegenteil. Ihre Daten müssten aus BigQuery in Google Cloud Storage exportiert werden, damit sie für Dataproc zugänglich sind, sodass Sie Ihrer Abfrage Latenz hinzufügen. – thomaspark