AWS verfügt über several public "big data" data sets. Einige sind kostenlos auf EBS gehostet, und andere, wie NASA NEX climate data sind auf S3 gehostet. Ich habe darüber gefunden, wie man mit denen arbeitet, die in EBS gehostet werden, aber war nicht in der Lage, einen S3-Datensatz innerhalb eines EC2 mit genügend schneller Geschwindigkeit zu erhalten, um tatsächlich mit den Daten zu arbeiten.Arbeiten mit AWS S3 Großer öffentlicher Datensatz
Also mein Problem ist, die öffentlichen großen Datenmengen (~ 256T) in eine EC2 "hinein" zu bekommen. Ein Ansatz, den ich versuchte, war, den öffentlichen S3 an meinen EC2 zu montieren, wie in this tutorial. Bei der Verwendung von Python zur Auswertung dieser eingehängten Daten waren die Verarbeitungszeiten jedoch sehr, sehr langsam.
Ich fange an zu denken, die Verwendung der AWS CLI (cp
oder) kann der richtige Ansatz sein, habe aber immer noch Schwierigkeiten, Dokumentation in Bezug auf große, öffentliche S3-Datensätze zu finden.
Kurz gesagt, ist der beste Weg, um mit AWS S3 öffentlichen Big Data Sets zu arbeiten, ist die CLI besser, ist dies ein EMR-Problem, oder liegt das Problem vollständig in der Größe und/oder Bandbreite?
256T auf eine EC2 zu bekommen wird sehr viel Zeit in Anspruch nehmen und auch zu teuer sein, warum halten Sie das nicht in S3? – error2007s
Ich verstehe nicht, verwenden Sie EMR mit mehreren Instanzen oder nur einer Instanz? 256T ist wirklich eine riesige Menge von Daten für nur eine Instanz, verwenden Sie ein Hadoop oder/und Spark oder ein anderes Framework, um die Daten zu verarbeiten? –
@ error2007s Dies ist ein öffentlicher Datensatz, und ich muss Python verwenden können, um die Daten zu analysieren. Die Montage an einem EC2 ist ziemlich einfach, aber bei der Analyse der Daten ist es sehr langsam. Meine Frage betrifft diese Verbindung. Ich plane, es in einem S3 zu lassen, aber ich weiß nicht, wie man sich mit den Daten verbindet, um es verarbeiten zu können. – csg2136