ich genetische Signaturen erstellen versuchen. Ich habe eine Textdatei voller DNA-Sequenzen. Ich möchte in jeder Zeile aus der Textdatei lesen. Fügen Sie dann 4mers hinzu, die 4 Basen in einem Wörterbuch enthalten. Zum Beispiel: ProbensequenzSplicing durch eine Leitung einer Text-Datei mit Python
ATGATATATCTATCAT
Was ich will ist hinzuzufügen ATGA, TGAT, GATA, etc .. in ein Wörterbuch mit IDs, die nur um 1 erhöht, während die 4mers Zugabe.
So wird das Wörterbuch halten ...
Genetic signatures, ID
ATGA,1
TGAT, 2
GATA,3
Hier ist, was ich bisher haben ...
import sys
def main():
readingFile = open("signatures.txt", "r")
my_DNA=""
DNAseq = {} #creates dictionary
for char in readingFile:
my_DNA = my_DNA+char
for char in my_DNA:
index = 0
DnaID=1
seq = my_DNA[index:index+4]
if (DNAseq.has_key(seq)): #checks if the key is in the dictionary
index= index +1
else :
DNAseq[seq] = DnaID
index = index+1
DnaID= DnaID+1
readingFile.close()
if __name__ == '__main__':
main()
ist hier meine Ausgabe:
ACTC
ACTC
ACTC
ACTC
ACTC
ACTC
Dieser Ausgang schlägt vor, dass nicht jedes Zeichen in einer Zeichenfolge durchlaufen wird ... bitte helfen!
Muchas gracias! Vielen Dank, Sie rocken! – brooklynchick