I eine file1 haben muss Region Informationen wie Chromosom 1 von Position 1 bis Position 10, wie folgt aussieht: chromosome,start_position,end_position 1,1,10 1,11,20
Wie kann ich alle Schlüsselwerte hinzufügen und das neue Wörterbuch drucken?
A file2 Werte für jede Position, wie Position 6 auf Chromosom 1 mit einem gewissen Wert, wie folgt aussieht: chromosome,position,value 1,1,value1 1,2,value2 1,6,value3 1,13,value4
ich möchte file2 Werte hinzufügen, in Datei1 basierend darauf, ob Positionen in Datei2 in jeder beliebigen Region file1 gehört, so etwas wie: chromosome,start_position,end_position,total_value 1,1,10,value1+value2+value3 1,11,20,value4
Beide Dateien können mehr als 10 m betragen Illion-Zeilen, Soll ich dies tun, indem ich durch jede Zeile von Datei2 schaue (um zu sehen, ob die Position in irgendeinem Bereich von Datei1 ist), oder jede Zeile von Datei1 zu einem Wörterbuch machen (dann Wert in Datei2 finden? dann füge hinzu?)?
Und wie kann ich den "Gesamtwert" jeder Zeile in Datei1 bekommen? Danke allen!
Willkommen bei Stack Overflow! Sie können [die Tour] (http://stackoverflow.com/tour) zuerst und lernen [Wie man eine gute Frage stellt] (http://stackoverflow.com/help/how-to-ask) und erstellen Sie eine [ Minimal, vollständig und verifizierbar] (http://stackoverflow.com/help/mcve) Beispiel. Das erleichtert es uns, Ihnen zu helfen. –
Diese Frage macht nicht klar, wie Sie 'file1' und' file2' kombinieren müssen. –
Ich mag den Wörterbuchansatz. Es wird mehrere Gigs verbrauchen, aber wenn deine Maschine halbwegs in Ordnung ist, ist das keine große Sache. Sie sparen Speicher, wenn Sie den Schlüssel mit einem String wie "1,1,10" belegen können, anstatt ihn in ein Tupel zu zerlegen. – tdelaney