2016-03-19 17 views
-2

Ich habe eine .txt Datei, die eine sehr lange RNAm Sequenz hat. Ich kenne die genaue Länge der Sequenz nicht.Extrahieren Sie einen Teil einer Zeichenfolge in Python

Was ich tun muss, ist, die einen Teil der Sequenz zu extrahieren, die gültig ist, dh es ist mit „AUG“ beginnt und endet in „UAA“ „UAG“ oder „UGA“. Da die Sequenz zu lang ist, kenne ich nicht den Index irgendeines Buchstabens oder wo die gültige Sequenz ist.

Ich muss die neue Sequenz in einer anderen Variablen speichern.

+3

Willkommen bei Stack-Überlauf! Welchen Code hast du ausprobiert? Gib einige Beispiele dafür, was gültig ist und was nicht, und poste auch den Inhalt deiner 'txt' Datei. –

+1

Sie sollten einen kurzen Auszug der txt-Datei hinzufügen. – DonkeyKong

Antwort

0

Wesentlichen, was Sie tun müssen, ohne dass man das Ganze Codierung ist:

Beispiel string:

rnaSequence = 'ACGUAFBHUAUAUAGAAAAUGGAGAGAGAAAAUUUGGGGGGGAAAAAAUAAAAAGGGUAUAUAGAUGAGAGAGA' 

Sie wollen den Index des ‚August‘ finden und der Index der ‚UAA‘, ‚UAG‘ oder ‚UGA‘ .. So etwas wie dieses

rnaStart = rnaSequence.index(begin) 

Dann müssen Sie die Scheibe der Zeichenfolge auf einen neuen var gesetzt iable

rnaSubstring = rnaSequence[rnaStart:rnaEnd+3] 

Welche oben in meinem String zurückgibt:

AUGGAGAGAGAAAAUUUGGGGGGGAAAAAAUAA 
Verwandte Themen