z. Generiere 1G Datensätze mit fortlaufenden Nummern zwischen 1 und 1G.Wie generiert man einen großen Datensatz mit Hive/Spark-SQL?
0
A
Antwort
1
erstellen partitionierten Sätabelle
create table seed (i int)
partitioned by (p int)
Bestücken des Saatguts Tabelle mit 1K Datensätze mit sequentieller Zahlen zwischen 0 und 999.
Jeder Datensatz in einer anderen Partition eingesetzt wird, befindet sich daher auf ein anderes HDFS-Verzeichnis und wichtiger - in einer anderen Datei.
Ps.s.
Der folgende Satz wird
benötigtset hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.max.dynamic.partitions.pernode=1000;
set hive.hadoop.supports.splittable.combineinputformat=false;
set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
insert into table seed partition (p)
select i,i
from (select 1) x lateral view posexplode (split (space (999),' ')) e as i,x
eine Tabelle generieren mit 1G Aufzeichnungen.
Jeder der 1K Datensätze in der Seed-Tabelle befindet sich in einer anderen Datei und wird von einem anderen Container gelesen.
Jeder Container generiert 1M Datensätze.
create table t1g
as
select s.i*1000000 + e.i + 1 as n
from seed s lateral view posexplode (split (space (1000000-1),' ')) e as i,x
Verwandte Themen
- 1. Einen großen Datensatz transponieren
- 2. Wie importiere ich einen großen Datensatz?
- 3. Wie generiert man einen Syntaxbaum mit NLTK?
- 4. Wie man einen sehr großen Datensatz mit scikit-learn trainiert/hochskaliert?
- 5. Wie kann man bestimmte Datenmengen aus einem großen Datensatz abrufen?
- 6. Perl - Wie man einen Aktualisierungszeitstempel generiert
- 7. Wie analysiert man einen großen Core-Dump, der generiert wird, wenn JVM abstürzt
- 8. PIG: Wie kann man einen großen Datensatz effizient laden und filtern?
- 9. Wie erstellt man mit JFreeChart nur einen Datensatz mit Linien?
- 10. Openerp, wie man einen einzigartigen Datensatz macht
- 11. SAS; Wie man einen Datensatz aktualisiert
- 12. Wie generiert man einen Junit-Ausgabebericht mit Behave Python
- 13. Wie generiert man einen zufälligen DUNKEL-Hex-Farbcode mit PHP?
- 14. Finden Sie einen Datensatz aus einer großen Anzahl von Datensätzen
- 15. Anpassen eines linearen gemischten Modells an einen sehr großen Datensatz
- 16. Pythonic-Methode, um Mittelwerte über einen großen Datensatz zu bewerten
- 17. Wie man einen Datensatz in PHP mit jQuery Popup bearbeiten
- 18. Wie aktualisiert man einen Datensatz in der Datenbank mit LINQ?
- 19. Wie man einen Datensatz von SQL mit bestimmten Wert ausschließt
- 20. Wie erstellt oder aktualisiert man einen Datensatz mit GORM?
- 21. Wie rangiert man einen Datensatz mit einem anderen in SQL?
- 22. Protoc: Wie generiert man mehrere Java-Quelldateien?
- 23. Wie generiert man Inhaltsverzeichnis mit dompdf?
- 24. Wie man Methoden mit großen Parameterlisten formatiert
- 25. Modelica - wie man einen Konstruktor für einen Datensatz implementiert
- 26. Wie generiert man .msi Installer mit cmake?
- 27. Entdecken periodische Muster in einem großen Datensatz
- 28. Mozart/Oz: wie man Datensatz mit Record.make
- 29. Wie visualisiere ich einen großen Dokumentensatz?
- 30. Wie generiert man Barcodes mit Java
Brilliant Ansatz –
@PraveenKumarKrishnaiyer - Danke :-) –