Wir haben einen großen Datensatz in SAS-Umgebung mit 30 Millionen Datensätzen und kleinen Datensätzen mit jeweils 100 000 Datensätzen.Verknüpfen kleiner Datensätze mit großem Dataset
Wir müssen diese kleineren Datensätze mit der "Großen" Tabelle verbinden und es dauert etwa 30-40 Minuten, um den kleineren Datensatz mit großem Datensatz zu verbinden.
Wenn wir den Job für 5-6 Datensätze einzeln ausführen, dauerte es eine Menge Zeit. Wenn wir alle diese Datensätze zu einem einzigen Datensatz zusammenführen und dann den linken Join ausführen, wird es im Vergleich zu einzelnen weniger Zeit benötigen? Außerdem gibt es in WORK Raumknappheit, also müssen wir das auch berücksichtigen.
Wie lesen Sie diese Datensätze? Haben Sie dort eine SQL-Datenbank? Oder führen Sie REST-API-Aufrufe aus? –
@ evgeny.myasishchev verwenden wir SAS-Unternehmen, so dass alle Datensätze auf SAS sind. kein API-Aufruf – rns
Wenn Sie genügend RAM haben (Größe der kleinen Tabellen ist kleiner als RAM), ist die perfekte Lösung eine SAS-Hash-Tabelle. –