Ich habe das folgende Problem: meine Tabelle1 hat N positive Proben, und es wächst langsam im Laufe der Zeit. Ich möchte 10N negative Samples aus einer anderen riesigen Tabelle auswählen. So wäre es etwa so:Quantitative Abhängigkeit zwischen Abfragen
WITH positive_samples AS (
SELECT * FROM table1
), negative_samples AS (
SELECT * FROM table2 LIMIT 100
)
gibt es einige Probleme mit dieser Abfrage: es garantiert nicht, dass ich etwa 10-mal mehr als negative_samples positive_samples haben wird, und es nicht dem Zufall negativen Proben entnehmen, .
Was wäre eine richtige Abfrage in Hive oder Presto, um diese beiden Sets auszuwählen?