Ich hatte Schwierigkeiten, den bestimmten Python-Befehl für mein Szenario zu finden.Python - trimmen Spalten nach einem bestimmten Zeichen oder Sequenz
Ich möchte Datasets basierend auf Gen-Namen zusammenführen. (ex/F44E5.4) Für die meisten Gennamen gibt es eine 100% Übereinstimmung, also kein Problem. Für andere Gene gibt es Varianten, die entweder mit. #, Einem Kleinbuchstabenvokal oder beiden am Ende des Genamens base bezeichnet werden. (ex/F26D10.3.2, K01G5.8b, F52D10.3a.2).
Ich möchte diese zusätzlichen Bits von Informationen trimmen, um mit meinem anderen Datensatz zu verschmelzen.
Auch wenn es Varianten gibt würde ich gerne den höheren Buchstaben oder die # Variante wählen. (Dh/a über b oder 0,1 über .2)
df1
gene_name v_1
1 F44E5.4 1
2 F26D10.3.2 2
3 K01G5.8b 3
4 F52D10.3a.2 2
5 K52GGG.1.1 2
6 K52GGG.1.2 4
df2
gene_name v_2
1 F44E5.4 .4
2 F26D10.3 .4
3 K01G5.8 .6
4 F52D10.3a .7
5 K52GGG.1 .4
merge
gene_name v_1 v_2
1 F44E5.4 1 .4
2 F26D10.3 2 .4
3 K01G5.8 3 .6
4 F52D10.3 2 .7
5 K52GGG.1 2 .4