2016-06-30 8 views
1

Ich versuche, Informationen aus einer Datei mit awk extrahieren.AWK - Extrahieren von Informationen durch Verwendung einer anderen Datei - Syntaxfehler

Die informationfile.txt ist ähnlich:

>ENST00000342992.10 cdna:known chromosome:GRCh38:2:178525989:178807421:-1 gene:ENSG00000155657.24 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:TTN description:titin [Source:HGNC Symbol;Acc:HGNC:12403] 
GCAGTCGTGCATTCCCAGCCTCGCCTCGGGTGTAGGGATTGCATAGAAAAGCAAAACTAC 
ACAGTCTTGACTGTGTAGTTTTGTTTTTAGGATTAGAGGCTCACCGATTCATGTCGGAGA 
TGGTCAGAAAAACCAACTCTCCATAGGACGTCGTTTCAGAAGCAACCTTGGGCTTAGTCC 
CACCCTTTTTAGGCACTCTTGAGAAATCAGAGTGCCTAGAAAGATGACAACTCAAGCACC 
GACGTTTACGCAGCCGTTACAAAGCGTTGTGGTACTGGAGGGTAGTACCGCAACCTTTGA 
GGCTCACATTAGTGGTTTTCCAGTTCCTGAGGTGAGCTGGTTTAGGGATGGCCAGGTGAT 
TTCCACTTCCACTCTGCCCGGCGTGCAGATCTCCTTTAGCGATGGCCGCGCTAAACTGAC 
GATCCCCGCCGTGACTAAAGCCAACAGTGGACGATATTCCCTGAAAGCCACCAATGGATC 
TGGACAAGCGACTAGTACTGCTGAGCTTCTCGTGAAAGCTGAGACAGCACCACCCAACTT 
CGTTCAACGACTGCAGAGCATGACCGTGAGACAAGGAAGCCAAGTGAGACTCCAAGTGAG 
AGTGACTGGAATCCCTACACCTGTGGTGAAGTTCTACCGGGATGGAGCCGAAATCCAGAG 
CTCCCTTGATTTCCAAATTTCACAAGAAGGCGACCTCTACAGCTTACTGATTGCAGAAGC 
ATACCCTGAGGACTCAGGGACCTATTCAGTAAATGCCACCAATAGCGTTGGAAGAGCTAC 
TTCGACTGCTGAATTACTGGTTCAAGGTGAAGAAGAAGTACCTGCTAAAAAGACAAAGAC 
AATTGTTTCGACTGCTCAGATCTCAGAATCAAGACAAACCCGAATTGAAAAGAAGATTGA 
AGCCCACTTTGATGCCAGATCAATTGCAACAGTTGAGATGGTCATAGATGGTGCCGCTGG 
GCAACAGCTGCCACATAAAACACCTCCCAGGATTCCTCCGAAGCCAAAGTCAAGATCCCC 
AACACCACCGTCTATTGCTGCCAAAGCACAGCTGGCTCGGCAGCAGTCCCCATCGCCCAT 
AAGACACTCCCCTTCCCCGGTCAGACACGTGCGGGCACCGACCCCATCTCCGGTCAGGTC 
CGTGTCTCCAGCAGCAAGAATCTCCACATCCCCCATCAGGTCTGTTAGGTCTCCATTGCT 
CATGCGTAAGACTCAGGCATCCACCGTGGCCACAGGTCCTGAAGTGCCTCCCCCTTGGAA 
GCAAGAGGGCTACGTGGCCTCCTCATCTGAGGCTGAGATGAGAGAGACAACGCTGACAAC 
CTCTACTCAGATCAGGACAGAAGAGAGATGGGAAGGGAGATACGGTGTCCAGGAGCAAGT 
GACCATCAGTGGTGCTGCGGGTGCTGCCGCCAGTGTGTCGGCCAGTGCTAGCTACGCAGC 
AGAGGCTGTTGCCACTGGTGCTAAAGAGGTGAAACAAGATGCTGACAAAAGTGCAGCTGT 
TGCGACTGTTGTTGCTGCCGTTGATATGGCCAGAGTGAGAGAACCAGTGATCAGCGCTGT 
AGAGCAGACTGCTCAGAGGACAACCACGACTGCTGTGCACATCCAACCTGCTCAAGAACA 
GGTAAGAAAGGAAGCGGAGAAGACTGCTGTAACTAAGGTAGTAGTGGCCGCCGATAAAGC 
CAAGGAACAAGAATTAAAATCAAGAACCAAAGAAGTAATTACCACAAAGCAAGAGCAGAT 
GCACGTAACTCATGAGCAGATAAGAAAAGAAACTGAAAAAACATTTGTACCAAAGGTAGT 
AATTTCCGCAGCTAAAGCCAAAGAACAAGAAACTAGAATTTCTGAAGAAATTACTAAGAA 
ACAGAAACAAGTAACTCAAGAAGCAATAAGACAGGAAACTGAGATAACTGCTGCATCCAT 
GGTGGTAGTTGCCACTGCAAAGTCCACAAAACTAGAAACAGTCCCGGGAGCTCAAGAAGA 
AACTACCACACAACAAGATCAAATGCACCTAAGTTATGAAAAGATAATGAAGGAAACTAG 
GAAAACAGTTGTACCTAAAGTCATAGTTGCCACACCCAAAGTCAAAGAACAAGATTTAGT 
>ENST00000460472.6 cdna:known chromosome:GRCh38:2:178525989:178807423:-1 gene:ENSG00000155657.24 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:TTN description:titin [Source:HGNC Symbol;Acc:HGNC:12403] 
GCAGTCGTGCATTCCCAGCCTCGCCTCGGGTGTAGGGATTGCATAGAAAAGCAAAACTAC 
ACAGTCTTGACTGTGTAGTTTTGTTTTTAGGATTAGAGGCTCACCGATTCATGTCGGAGA 
TGGTCAGAAAAACCAACTCTCCATAGGACGTCGTTTCAGAAGCAACCTTGGGCTTAGTCC 
CACCCTTTTTAGGCACTCTTGAGAAATCAGAGTGCCTAGAAAGATGACAACTCAAGCACC 
GACGTTTACGCAGCCGTTACAAAGCGTTGTGGTACTGGAGGGTAGTACCGCAACCTTTGA 
GGCTCACATTAGTGGTTTTCCAGTTCCTGAGGTGAGCTGGTTTAGGGATGGCCAGGTGAT 
TTCCACTTCCACTCTGCCCGGCGTGCAGATCTCCTTTAGCGATGGCCGCGCTAAACTGAC 
GATCCCCGCCGTGACTAAAGCCAACAGTGGACGATATTCCCTGAAAGCCACCAATGGATC 
TGGACAAGCGACTAGTACTGCTGAGCTTCTCGTGAAAGCTGAGACAGCACCACCCAACTT 
CGTTCAACGACTGCAGAGCATGACCGTGAGACAAGGAAGCCAAGTGAGACTCCAAGTGAG 
AGTGACTGGAATCCCTACACCTGTGGTGAAGTTCTACCGGGATGGAGCCGAAATCCAGAG 
CTCCCTTGATTTCCAAATTTCACAAGAAGGCGACCTCTACAGCTTACTGATTGCAGAAGC 
ATACCCTGAGGACTCAGGGACCTATTCAGTAAATGCCACCAATAGCGTTGGAAGAGCTAC 
TTCGACTGCTGAATTACTGGTTCAAGGTGAAGAAGAAGTACCTGCTAAAAAGACAAAGAC 
AATTGTTTCGACTGCTCAGATCTCAGAATCAAGACAAACCCGAATTGAAAAGAAGATTGA 
AGCCCACTTTGATGCCAGATCAATTGCAACAGTTGAGATGGTCATAGATGGTGCCGCTGG 
GCAACAGCTGCCACATAAAACACCTCCCAGGATTCCTCCGAAGCCAAAGTCAAGATCCCC 
AACACCACCGTCTATTGCTGCCAAAGCACAGCTGGCTCGGCAGCAGTCCCCATCGCCCAT 
AAGACACTCCCCTTCCCCGGTCAGACACGTGCGGGCACCGACCCCATCTCCGGTCAGGTC 
CGTGTCTCCAGCAGCAAGAATCTCCACATCCCCCATCAGGTCTGTTAGGTCTCCATTGCT 
CATGCGTAAGACTCAGGCATCCACCGTGGCCACAGGTCCTGAAGTGCCTCCCCCTTGGAA 
GCAAGAGGGCTACGTGGCCTCCTCATCTGAGGCTGAGATGAGAGAGACAACGCTGACAAC 
CTCTACTCAGATCAGGACAGAAGAGAGATGGGAAGGGAGATACGGTGTCCAGGAGCAAGT 
GACCATCAGTGGTGCTGCGGGTGCTGCCGCCAGTGTGTCGGCCAGTGCTAGCTACGCAGC 
AGAGGCTGTTGCCACTGGTGCTAAAGAGGTGAAACAAGATGCTGACAAAAGTGCAGCTGT 
TGCGACTGTTGTTGCTGCCGTTGATATGGCCAGAGTGAGAGAACCAGTGATCAGCGCTGT 
AGAGCAGACTGCTCAGAGGACAACCACGACTGCTGTGCACATCCAACCTGCTCAAGAACA 
GGTAAGAAAGGAAGCGGAGAAGACTGCTGTAACTAAGGTAGTAGTGGCCGCCGATAAAGC 
CAAGGAACAAGAATTAAAATCAAGAACCAAAGAAGTAATTACCACAAAGCAAGAGCAGAT 
GCACGTAACTCATGAGCAGATAAGAAAAGAAACTGAAAAAACATTTGTACCAAAGGTAGT 
AATTTCCGCAGCTAAAGCCAAAGAACAAGAAACTAGAATTTCTGAAGAAATTACTAAGAA 
ACAGAAACAAGTAACTCAAGAAGCAATAAGACAGGAAACTGAGATAACTGCTGCATCCAT 
GGTGGTAGTTGCCACTGCAAAGTCCACAAAACTAGAAACAGTCCCGGGAGCTCAAGAAGA 
AACTACCACACAACAAGATCAAATGCACCTAAGTTATGAAAAGATAATGAAGGAAACTAG 
GAAAACAGTTGTACCTAAAGTCATAGTTGCCACACCCAAAGTCAAAGAACAAGATTTAGT 
>ENST00000589042.5 cdna:known chromosome:GRCh38:2:178525989:178807423:-1 gene:ENSG00000155657.24 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:TTN description:titin [Source:HGNC Symbol;Acc:HGNC:12403] 
GCAGTCGTGCATTCCCAGCCTCGCCTCGGGTGTAGGGATTGCATAGAAAAGCAAAACTAC 
ACAGTCTTGACTGTGTAGTTTTGTTTTTAGGATTAGAGGCTCACCGATTCATGTCGGAGA 
TGGTCAGAAAAACCAACTCTCCATAGGACGTCGTTTCAGAAGCAACCTTGGGCTTAGTCC 
CACCCTTTTTAGGCACTCTTGAGAAATCAGAGTGCCTAGAAAGATGACAACTCAAGCACC 
GACGTTTACGCAGCCGTTACAAAGCGTTGTGGTACTGGAGGGTAGTACCGCAACCTTTGA 
GGCTCACATTAGTGGTTTTCCAGTTCCTGAGGTGAGCTGGTTTAGGGATGGCCAGGTGAT 
TTCCACTTCCACTCTGCCCGGCGTGCAGATCTCCTTTAGCGATGGCCGCGCTAAACTGAC 
GATCCCCGCCGTGACTAAAGCCAACAGTGGACGATATTCCCTGAAAGCCACCAATGGATC 
TGGACAAGCGACTAGTACTGCTGAGCTTCTCGTGAAAGCTGAGACAGCACCACCCAACTT 
CGTTCAACGACTGCAGAGCATGACCGTGAGACAAGGAAGCCAAGTGAGACTCCAAGTGAG 
AGTGACTGGAATCCCTACACCTGTGGTGAAGTTCTACCGGGATGGAGCCGAAATCCAGAG 
CTCCCTTGATTTCCAAATTTCACAAGAAGGCGACCTCTACAGCTTACTGATTGCAGAAGC 
ATACCCTGAGGACTCAGGGACCTATTCAGTAAATGCCACCAATAGCGTTGGAAGAGCTAC 
TTCGACTGCTGAATTACTGGTTCAAGGTGAAGAAGAAGTACCTGCTAAAAAGACAAAGAC 
AATTGTTTCGACTGCTCAGATCTCAGAATCAAGACAAACCCGAATTGAAAAGAAGATTGA 
AGCCCACTTTGATGCCAGATCAATTGCAACAGTTGAGATGGTCATAGATGGTGCCGCTGG 
GCAACAGCTGCCACATAAAACACCTCCCAGGATTCCTCCGAAGCCAAAGTCAAGATCCCC 
AACACCACCGTCTATTGCTGCCAAAGCACAGCTGGCTCGGCAGCAGTCCCCATCGCCCAT 
AAGACACTCCCCTTCCCCGGTCAGACACGTGCGGGCACCGACCCCATCTCCGGTCAGGTC 
CGTGTCTCCAGCAGCAAGAATCTCCACATCCCCCATCAGGTCTGTTAGGTCTCCATTGCT 
CATGCGTAAGACTCAGGCATCCACCGTGGCCACAGGTCCTGAAGTGCCTCCCCCTTGGAA 
GCAAGAGGGCTACGTGGCCTCCTCATCTGAGGCTGAGATGAGAGAGACAACGCTGACAAC 
CTCTACTCAGATCAGGACAGAAGAGAGATGGGAAGGGAGATACGGTGTCCAGGAGCAAGT 
GACCATCAGTGGTGCTGCGGGTGCTGCCGCCAGTGTGTCGGCCAGTGCTAGCTACGCAGC 
AGAGGCTGTTGCCACTGGTGCTAAAGAGGTGAAACAAGATGCTGACAAAAGTGCAGCTGT 
TGCGACTGTTGTTGCTGCCGTTGATATGGCCAGAGTGAGAGAACCAGTGATCAGCGCTGT 
AGAGCAGACTGCTCAGAGGACAACCACGACTGCTGTGCACATCCAACCTGCTCAAGAACA 
GGTAAGAAAGGAAGCGGAGAAGACTGCTGTAACTAAGGTAGTAGTGGCCGCCGATAAAGC 
CAAGGAACAAGAATTAAAATCAAGAACCAAAGAAGTAATTACCACAAAGCAAGAGCAGAT 
GCACGTAACTCATGAGCAGATAAGAAAAGAAACTGAAAAAACATTTGTACCAAAGGTAGT 
AATTTCCGCAGCTAAAGCCAAAGAACAAGAAACTAGAATTTCTGAAGAAATTACTAAGAA 
ACAGAAACAAGTAACTCAAGAAGCAATAAGACAGGAAACTGAGATAACTGCTGCATCCAT 
GGTGGTAGTTGCCACTGCAAAGTCCACAAAACTAGAAACAGTCCCGGGAGCTCAAGAAGA 
AACTACCACACAACAAGATCAAATGCACCTAAGTTATGAAAAGATAATGAAGGAAACTAG 
GAAAACAGTTGTACCTAAAGTCATAGTTGCCACACCCAAAGTCAAAGAACAAGATTTAGT 
>ENST00000591111.5 cdna:known chromosome:GRCh38:2:178525989:178807423:-1 gene:ENSG00000155657.24 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:TTN description:titin [Source:HGNC Symbol;Acc:HGNC:12403] 
GCAGTCGTGCATTCCCAGCCTCGCCTCGGGTGTAGGGATTGCATAGAAAAGCAAAACTAC 
ACAGTCTTGACTGTGTAGTTTTGTTTTTAGGATTAGAGGCTCACCGATTCATGTCGGAGA 
TGGTCAGAAAAACCAACTCTCCATAGGACGTCGTTTCAGAAGCAACCTTGGGCTTAGTCC 
CACCCTTTTTAGGCACTCTTGAGAAATCAGAGTGCCTAGAAAGATGACAACTCAAGCACC 
GACGTTTACGCAGCCGTTACAAAGCGTTGTGGTACTGGAGGGTAGTACCGCAACCTTTGA 
GGCTCACATTAGTGGTTTTCCAGTTCCTGAGGTGAGCTGGTTTAGGGATGGCCAGGTGAT 
TTCCACTTCCACTCTGCCCGGCGTGCAGATCTCCTTTAGCGATGGCCGCGCTAAACTGAC 
GATCCCCGCCGTGACTAAAGCCAACAGTGGACGATATTCCCTGAAAGCCACCAATGGATC 
TGGACAAGCGACTAGTACTGCTGAGCTTCTCGTGAAAGCTGAGACAGCACCACCCAACTT 
CGTTCAACGACTGCAGAGCATGACCGTGAGACAAGGAAGCCAAGTGAGACTCCAAGTGAG 
AGTGACTGGAATCCCTACACCTGTGGTGAAGTTCTACCGGGATGGAGCCGAAATCCAGAG 
CTCCCTTGATTTCCAAATTTCACAAGAAGGCGACCTCTACAGCTTACTGATTGCAGAAGC 
ATACCCTGAGGACTCAGGGACCTATTCAGTAAATGCCACCAATAGCGTTGGAAGAGCTAC 
TTCGACTGCTGAATTACTGGTTCAAGGTGAAGAAGAAGTACCTGCTAAAAAGACAAAGAC 
AATTGTTTCGACTGCTCAGATCTCAGAATCAAGACAAACCCGAATTGAAAAGAAGATTGA 
AGCCCACTTTGATGCCAGATCAATTGCAACAGTTGAGATGGTCATAGATGGTGCCGCTGG 
GCAACAGCTGCCACATAAAACACCTCCCAGGATTCCTCCGAAGCCAAAGTCAAGATCCCC 
AACACCACCGTCTATTGCTGCCAAAGCACAGCTGGCTCGGCAGCAGTCCCCATCGCCCAT 
AAGACACTCCCCTTCCCCGGTCAGACACGTGCGGGCACCGACCCCATCTCCGGTCAGGTC 
CGTGTCTCCAGCAGCAAGAATCTCCACATCCCCCATCAGGTCTGTTAGGTCTCCATTGCT 
CATGCGTAAGACTCAGGCATCCACCGTGGCCACAGGTCCTGAAGTGCCTCCCCCTTGGAA 
GCAAGAGGGCTACGTGGCCTCCTCATCTGAGGCTGAGATGAGAGAGACAACGCTGACAAC 
CTCTACTCAGATCAGGACAGAAGAGAGATGGGAAGGGAGATACGGTGTCCAGGAGCAAGT 
GACCATCAGTGGTGCTGCGGGTGCTGCCGCCAGTGTGTCGGCCAGTGCTAGCTACGCAGC 
AGAGGCTGTTGCCACTGGTGCTAAAGAGGTGAAACAAGATGCTGACAAAAGTGCAGCTGT 
TGCGACTGTTGTTGCTGCCGTTGATATGGCCAGAGTGAGAGAACCAGTGATCAGCGCTGT 
AGAGCAGACTGCTCAGAGGACAACCACGACTGCTGTGCACATCCAACCTGCTCAAGAACA 
GGTAAGAAAGGAAGCGGAGAAGACTGCTGTAACTAAGGTAGTAGTGGCCGCCGATAAAGC 
CAAGGAACAAGAATTAAAATCAAGAACCAAAGAAGTAATTACCACAAAGCAAGAGCAGAT 
GCACGTAACTCATGAGCAGATAAGAAAAGAAACTGAAAAAACATTTGTACCAAAGGTAGT 
AATTTCCGCAGCTAAAGCCAAAGAACAAGAAACTAGAATTTCTGAAGAAATTACTAAGAA 
ACAGAAACAAGTAACTCAAGAAGCAATAAGACAGGAAACTGAGATAACTGCTGCATCCAT 
GGTGGTAGTTGCCACTGCAAAGTCCACAAAACTAGAAACAGTCCCGGGAGCTCAAGAAGA 
AACTACCACACAACAAGATCAAATGCACCTAAGTTATGAAAAGATAATGAAGGAAACTAG 
GAAAACAGTTGTACCTAAAGTCATAGTTGCCACACCCAAAGTCAAAGAACAAGATTTAGT 
>ENST00000425332.2 cdna:known chromosome:GRCh38:2:178663627:178667307:-1 gene:ENSG00000155657.24 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:TTN description:titin [Source:HGNC Symbol;Acc:HGNC:12403] 
GCAGTCGTGCATTCCCAGCCTCGCCTCGGGTGTAGGGATTGCATAGAAAAGCAAAACTAC 
ACAGTCTTGACTGTGTAGTTTTGTTTTTAGGATTAGAGGCTCACCGATTCATGTCGGAGA 
TGGTCAGAAAAACCAACTCTCCATAGGACGTCGTTTCAGAAGCAACCTTGGGCTTAGTCC 
CACCCTTTTTAGGCACTCTTGAGAAATCAGAGTGCCTAGAAAGATGACAACTCAAGCACC 
GACGTTTACGCAGCCGTTACAAAGCGTTGTGGTACTGGAGGGTAGTACCGCAACCTTTGA 
GGCTCACATTAGTGGTTTTCCAGTTCCTGAGGTGAGCTGGTTTAGGGATGGCCAGGTGAT 
TTCCACTTCCACTCTGCCCGGCGTGCAGATCTCCTTTAGCGATGGCCGCGCTAAACTGAC 
GATCCCCGCCGTGACTAAAGCCAACAGTGGACGATATTCCCTGAAAGCCACCAATGGATC 
TGGACAAGCGACTAGTACTGCTGAGCTTCTCGTGAAAGCTGAGACAGCACCACCCAACTT 
CGTTCAACGACTGCAGAGCATGACCGTGAGACAAGGAAGCCAAGTGAGACTCCAAGTGAG 
AGTGACTGGAATCCCTACACCTGTGGTGAAGTTCTACCGGGATGGAGCCGAAATCCAGAG 
CTCCCTTGATTTCCAAATTTCACAAGAAGGCGACCTCTACAGCTTACTGATTGCAGAAGC 
ATACCCTGAGGACTCAGGGACCTATTCAGTAAATGCCACCAATAGCGTTGGAAGAGCTAC 
TTCGACTGCTGAATTACTGGTTCAAGGTGAAGAAGAAGTACCTGCTAAAAAGACAAAGAC 
AATTGTTTCGACTGCTCAGATCTCAGAATCAAGACAAACCCGAATTGAAAAGAAGATTGA 
AGCCCACTTTGATGCCAGATCAATTGCAACAGTTGAGATGGTCATAGATGGTGCCGCTGG 
GCAACAGCTGCCACATAAAACACCTCCCAGGATTCCTCCGAAGCCAAAGTCAAGATCCCC 
AACACCACCGTCTATTGCTGCCAAAGCACAGCTGGCTCGGCAGCAGTCCCCATCGCCCAT 
AAGACACTCCCCTTCCCCGGTCAGACACGTGCGGGCACCGACCCCATCTCCGGTCAGGTC 
CGTGTCTCCAGCAGCAAGAATCTCCACATCCCCCATCAGGTCTGTTAGGTCTCCATTGCT 
CATGCGTAAGACTCAGGCATCCACCGTGGCCACAGGTCCTGAAGTGCCTCCCCCTTGGAA 
GCAAGAGGGCTACGTGGCCTCCTCATCTGAGGCTGAGATGAGAGAGACAACGCTGACAAC 
CTCTACTCAGATCAGGACAGAAGAGAGATGGGAAGGGAGATACGGTGTCCAGGAGCAAGT 
GACCATCAGTGGTGCTGCGGGTGCTGCCGCCAGTGTGTCGGCCAGTGCTAGCTACGCAGC 
AGAGGCTGTTGCCACTGGTGCTAAAGAGGTGAAACAAGATGCTGACAAAAGTGCAGCTGT 
TGCGACTGTTGTTGCTGCCGTTGATATGGCCAGAGTGAGAGAACCAGTGATCAGCGCTGT 
AGAGCAGACTGCTCAGAGGACAACCACGACTGCTGTGCACATCCAACCTGCTCAAGAACA 
GGTAAGAAAGGAAGCGGAGAAGACTGCTGTAACTAAGGTAGTAGTGGCCGCCGATAAAGC 
CAAGGAACAAGAATTAAAATCAAGAACCAAAGAAGTAATTACCACAAAGCAAGAGCAGAT 
GCACGTAACTCATGAGCAGATAAGAAAAGAAACTGAAAAAACATTTGTACCAAAGGTAGT 
AATTTCCGCAGCTAAAGCCAAAGAACAAGAAACTAGAATTTCTGAAGAAATTACTAAGAA 
ACAGAAACAAGTAACTCAAGAAGCAATAAGACAGGAAACTGAGATAACTGCTGCATCCAT 
GGTGGTAGTTGCCACTGCAAAGTCCACAAAACTAGAAACAGTCCCGGGAGCTCAAGAAGA 
AACTACCACACAACAAGATCAAATGCACCTAAGTTATGAAAAGATAATGAAGGAAACTAG 
GAAAACAGTTGTACCTAAAGTCATAGTTGCCACACCCAAAGTCAAAGAACAAGATTTAGT 
>ENST00000448510.2 cdna:known chromosome:GRCh38:2:178669625:178672418:-1 gene:ENSG00000155657.24 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:TTN description:titin [Source:HGNC Symbol;Acc:HGNC:12403] 
GCAGTCGTGCATTCCCAGCCTCGCCTCGGGTGTAGGGATTGCATAGAAAAGCAAAACTAC 
ACAGTCTTGACTGTGTAGTTTTGTTTTTAGGATTAGAGGCTCACCGATTCATGTCGGAGA 
TGGTCAGAAAAACCAACTCTCCATAGGACGTCGTTTCAGAAGCAACCTTGGGCTTAGTCC 
CACCCTTTTTAGGCACTCTTGAGAAATCAGAGTGCCTAGAAAGATGACAACTCAAGCACC 
GACGTTTACGCAGCCGTTACAAAGCGTTGTGGTACTGGAGGGTAGTACCGCAACCTTTGA 
GGCTCACATTAGTGGTTTTCCAGTTCCTGAGGTGAGCTGGTTTAGGGATGGCCAGGTGAT 
TTCCACTTCCACTCTGCCCGGCGTGCAGATCTCCTTTAGCGATGGCCGCGCTAAACTGAC 
GATCCCCGCCGTGACTAAAGCCAACAGTGGACGATATTCCCTGAAAGCCACCAATGGATC 
TGGACAAGCGACTAGTACTGCTGAGCTTCTCGTGAAAGCTGAGACAGCACCACCCAACTT 
CGTTCAACGACTGCAGAGCATGACCGTGAGACAAGGAAGCCAAGTGAGACTCCAAGTGAG 
AGTGACTGGAATCCCTACACCTGTGGTGAAGTTCTACCGGGATGGAGCCGAAATCCAGAG 
CTCCCTTGATTTCCAAATTTCACAAGAAGGCGACCTCTACAGCTTACTGATTGCAGAAGC 
ATACCCTGAGGACTCAGGGACCTATTCAGTAAATGCCACCAATAGCGTTGGAAGAGCTAC 
TTCGACTGCTGAATTACTGGTTCAAGGTGAAGAAGAAGTACCTGCTAAAAAGACAAAGAC 
AATTGTTTCGACTGCTCAGATCTCAGAATCAAGACAAACCCGAATTGAAAAGAAGATTGA 
AGCCCACTTTGATGCCAGATCAATTGCAACAGTTGAGATGGTCATAGATGGTGCCGCTGG 
GCAACAGCTGCCACATAAAACACCTCCCAGGATTCCTCCGAAGCCAAAGTCAAGATCCCC 
AACACCACCGTCTATTGCTGCCAAAGCACAGCTGGCTCGGCAGCAGTCCCCATCGCCCAT 
AAGACACTCCCCTTCCCCGGTCAGACACGTGCGGGCACCGACCCCATCTCCGGTCAGGTC 
CGTGTCTCCAGCAGCAAGAATCTCCACATCCCCCATCAGGTCTGTTAGGTCTCCATTGCT 
CATGCGTAAGACTCAGGCATCCACCGTGGCCACAGGTCCTGAAGTGCCTCCCCCTTGGAA 
GCAAGAGGGCTACGTGGCCTCCTCATCTGAGGCTGAGATGAGAGAGACAACGCTGACAAC 
CTCTACTCAGATCAGGACAGAAGAGAGATGGGAAGGGAGATACGGTGTCCAGGAGCAAGT 
GACCATCAGTGGTGCTGCGGGTGCTGCCGCCAGTGTGTCGGCCAGTGCTAGCTACGCAGC 
AGAGGCTGTTGCCACTGGTGCTAAAGAGGTGAAACAAGATGCTGACAAAAGTGCAGCTGT 
TGCGACTGTTGTTGCTGCCGTTGATATGGCCAGAGTGAGAGAACCAGTGATCAGCGCTGT 
AGAGCAGACTGCTCAGAGGACAACCACGACTGCTGTGCACATCCAACCTGCTCAAGAACA 
GGTAAGAAAGGAAGCGGAGAAGACTGCTGTAACTAAGGTAGTAGTGGCCGCCGATAAAGC 
CAAGGAACAAGAATTAAAATCAAGAACCAAAGAAGTAATTACCACAAAGCAAGAGCAGAT 
GCACGTAACTCATGAGCAGATAAGAAAAGAAACTGAAAAAACATTTGTACCAAAGGTAGT 
AATTTCCGCAGCTAAAGCCAAAGAACAAGAAACTAGAATTTCTGAAGAAATTACTAAGAA 
ACAGAAACAAGTAACTCAAGAAGCAATAAGACAGGAAACTGAGATAACTGCTGCATCCAT 
GGTGGTAGTTGCCACTGCAAAGTCCACAAAACTAGAAACAGTCCCGGGAGCTCAAGAAGA 
AACTACCACACAACAAGATCAAATGCACCTAAGTTATGAAAAGATAATGAAGGAAACTAG 
GAAAACAGTTGTACCTAAAGTCATAGTTGCCACACCCAAAGTCAAAGAACAAGATTTAGT 
>ENST00000360870.9 cdna:known chromosome:GRCh38:2:178744405:178807421:-1 gene:ENSG00000155657.24 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:TTN description:titin [Source:HGNC Symbol;Acc:HGNC:12403] 
GCAGTCGTGCATTCCCAGCCTCGCCTCGGGTGTAGGGATTGCATAGAAAAGCAAAACTAC 
ACAGTCTTGACTGTGTAGTTTTGTTTTTAGGATTAGAGGCTCACCGATTCATGTCGGAGA 
TGGTCAGAAAAACCAACTCTCCATAGGACGTCGTTTCAGAAGCAACCTTGGGCTTAGTCC 
CACCCTTTTTAGGCACTCTTGAGAAATCAGAGTGCCTAGAAAGATGACAACTCAAGCACC 
GACGTTTACGCAGCCGTTACAAAGCGTTGTGGTACTGGAGGGTAGTACCGCAACCTTTGA 
GGCTCACATTAGTGGTTTTCCAGTTCCTGAGGTGAGCTGGTTTAGGGATGGCCAGGTGAT 
TTCCACTTCCACTCTGCCCGGCGTGCAGATCTCCTTTAGCGATGGCCGCGCTAAACTGAC 
GATCCCCGCCGTGACTAAAGCCAACAGTGGACGATATTCCCTGAAAGCCACCAATGGATC 
TGGACAAGCGACTAGTACTGCTGAGCTTCTCGTGAAAGCTGAGACAGCACCACCCAACTT 
CGTTCAACGACTGCAGAGCATGACCGTGAGACAAGGAAGCCAAGTGAGACTCCAAGTGAG 
AGTGACTGGAATCCCTACACCTGTGGTGAAGTTCTACCGGGATGGAGCCGAAATCCAGAG 
CTCCCTTGATTTCCAAATTTCACAAGAAGGCGACCTCTACAGCTTACTGATTGCAGAAGC 
ATACCCTGAGGACTCAGGGACCTATTCAGTAAATGCCACCAATAGCGTTGGAAGAGCTAC 
TTCGACTGCTGAATTACTGGTTCAAGGTGAAGAAGAAGTACCTGCTAAAAAGACAAAGAC 
AATTGTTTCGACTGCTCAGATCTCAGAATCAAGACAAACCCGAATTGAAAAGAAGATTGA 
AGCCCACTTTGATGCCAGATCAATTGCAACAGTTGAGATGGTCATAGATGGTGCCGCTGG 
GCAACAGCTGCCACATAAAACACCTCCCAGGATTCCTCCGAAGCCAAAGTCAAGATCCCC 
AACACCACCGTCTATTGCTGCCAAAGCACAGCTGGCTCGGCAGCAGTCCCCATCGCCCAT 
AAGACACTCCCCTTCCCCGGTCAGACACGTGCGGGCACCGACCCCATCTCCGGTCAGGTC 
CGTGTCTCCAGCAGCAAGAATCTCCACATCCCCCATCAGGTCTGTTAGGTCTCCATTGCT 
CATGCGTAAGACTCAGGCATCCACCGTGGCCACAGGTCCTGAAGTGCCTCCCCCTTGGAA 
GCAAGAGGGCTACGTGGCCTCCTCATCTGAGGCTGAGATGAGAGAGACAACGCTGACAAC 
CTCTACTCAGATCAGGACAGAAGAGAGATGGGAAGGGAGATACGGTGTCCAGGAGCAAGT 
GACCATCAGTGGTGCTGCGGGTGCTGCCGCCAGTGTGTCGGCCAGTGCTAGCTACGCAGC 
AGAGGCTGTTGCCACTGGTGCTAAAGAGGTGAAACAAGATGCTGACAAAAGTGCAGCTGT 
TGCGACTGTTGTTGCTGCCGTTGATATGGCCAGAGTGAGAGAACCAGTGATCAGCGCTGT 
AGAGCAGACTGCTCAGAGGACAACCACGACTGCTGTGCACATCCAACCTGCTCAAGAACA 
GGTAAGAAAGGAAGCGGAGAAGACTGCTGTAACTAAGGTAGTAGTGGCCGCCGATAAAGC 
CAAGGAACAAGAATTAAAATCAAGAACCAAAGAAGTAATTACCACAAAGCAAGAGCAGAT 
GCACGTAACTCATGAGCAGATAAGAAAAGAAACTGAAAAAACATTTGTACCAAAGGTAGT 
AATTTCCGCAGCTAAAGCCAAAGAACAAGAAACTAGAATTTCTGAAGAAATTACTAAGAA 
ACAGAAACAAGTAACTCAAGAAGCAATAAGACAGGAAACTGAGATAACTGCTGCATCCAT 
GGTGGTAGTTGCCACTGCAAAGTCCACAAAACTAGAAACAGTCCCGGGAGCTCAAGAAGA 
AACTACCACACAACAAGATCAAATGCACCTAAGTTATGAAAAGATAATGAAGGAAACTAG 
GAAAACAGTTGTACCTAAAGTCATAGTTGCCACACCCAAAGTCAAAGAACAAGATTTAGT 
>ENST00000634225.1 cdna:known chromosome:GRCh38:2:178753361:178767825:-1 gene:ENSG00000155657.24 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:TTN description:titin [Source:HGNC Symbol;Acc:HGNC:12403] 
GCAGTCGTGCATTCCCAGCCTCGCCTCGGGTGTAGGGATTGCATAGAAAAGCAAAACTAC 
ACAGTCTTGACTGTGTAGTTTTGTTTTTAGGATTAGAGGCTCACCGATTCATGTCGGAGA 
TGGTCAGAAAAACCAACTCTCCATAGGACGTCGTTTCAGAAGCAACCTTGGGCTTAGTCC 
CACCCTTTTTAGGCACTCTTGAGAAATCAGAGTGCCTAGAAAGATGACAACTCAAGCACC 
GACGTTTACGCAGCCGTTACAAAGCGTTGTGGTACTGGAGGGTAGTACCGCAACCTTTGA 
GGCTCACATTAGTGGTTTTCCAGTTCCTGAGGTGAGCTGGTTTAGGGATGGCCAGGTGAT 
TTCCACTTCCACTCTGCCCGGCGTGCAGATCTCCTTTAGCGATGGCCGCGCTAAACTGAC 
GATCCCCGCCGTGACTAAAGCCAACAGTGGACGATATTCCCTGAAAGCCACCAATGGATC 
TGGACAAGCGACTAGTACTGCTGAGCTTCTCGTGAAAGCTGAGACAGCACCACCCAACTT 
CGTTCAACGACTGCAGAGCATGACCGTGAGACAAGGAAGCCAAGTGAGACTCCAAGTGAG 
AGTGACTGGAATCCCTACACCTGTGGTGAAGTTCTACCGGGATGGAGCCGAAATCCAGAG 
CTCCCTTGATTTCCAAATTTCACAAGAAGGCGACCTCTACAGCTTACTGATTGCAGAAGC 
ATACCCTGAGGACTCAGGGACCTATTCAGTAAATGCCACCAATAGCGTTGGAAGAGCTAC 
TTCGACTGCTGAATTACTGGTTCAAGGTGAAGAAGAAGTACCTGCTAAAAAGACAAAGAC 
AATTGTTTCGACTGCTCAGATCTCAGAATCAAGACAAACCCGAATTGAAAAGAAGATTGA 
AGCCCACTTTGATGCCAGATCAATTGCAACAGTTGAGATGGTCATAGATGGTGCCGCTGG 
GCAACAGCTGCCACATAAAACACCTCCCAGGATTCCTCCGAAGCCAAAGTCAAGATCCCC 
AACACCACCGTCTATTGCTGCCAAAGCACAGCTGGCTCGGCAGCAGTCCCCATCGCCCAT 
AAGACACTCCCCTTCCCCGGTCAGACACGTGCGGGCACCGACCCCATCTCCGGTCAGGTC 
CGTGTCTCCAGCAGCAAGAATCTCCACATCCCCCATCAGGTCTGTTAGGTCTCCATTGCT 
CATGCGTAAGACTCAGGCATCCACCGTGGCCACAGGTCCTGAAGTGCCTCCCCCTTGGAA 
GCAAGAGGGCTACGTGGCCTCCTCATCTGAGGCTGAGATGAGAGAGACAACGCTGACAAC 
CTCTACTCAGATCAGGACAGAAGAGAGATGGGAAGGGAGATACGGTGTCCAGGAGCAAGT 
GACCATCAGTGGTGCTGCGGGTGCTGCCGCCAGTGTGTCGGCCAGTGCTAGCTACGCAGC 
AGAGGCTGTTGCCACTGGTGCTAAAGAGGTGAAACAAGATGCTGACAAAAGTGCAGCTGT 
TGCGACTGTTGTTGCTGCCGTTGATATGGCCAGAGTGAGAGAACCAGTGATCAGCGCTGT 
AGAGCAGACTGCTCAGAGGACAACCACGACTGCTGTGCACATCCAACCTGCTCAAGAACA 
GGTAAGAAAGGAAGCGGAGAAGACTGCTGTAACTAAGGTAGTAGTGGCCGCCGATAAAGC 
CAAGGAACAAGAATTAAAATCAAGAACCAAAGAAGTAATTACCACAAAGCAAGAGCAGAT 
GCACGTAACTCATGAGCAGATAAGAAAAGAAACTGAAAAAACATTTGTACCAAAGGTAGT 
AATTTCCGCAGCTAAAGCCAAAGAACAAGAAACTAGAATTTCTGAAGAAATTACTAAGAA 
ACAGAAACAAGTAACTCAAGAAGCAATAAGACAGGAAACTGAGATAACTGCTGCATCCAT 
GGTGGTAGTTGCCACTGCAAAGTCCACAAAACTAGAAACAGTCCCGGGAGCTCAAGAAGA 
AACTACCACACAACAAGATCAAATGCACCTAAGTTATGAAAAGATAATGAAGGAAACTAG 
GAAAACAGTTGTACCTAAAGTCATAGTTGCCACACCCAAAGTCAAAGAACAAGATTTAGT 
>ENST00000436599.1 cdna:known chromosome:GRCh38:2:178786089:178794954:-1 gene:ENSG00000155657.24 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:TTN description:titin [Source:HGNC Symbol;Acc:HGNC:12403] 
>ENST00000470257.1 cdna:known chromosome:GRCh38:2:178798495:178807408:-1 gene:ENSG00000155657.24 gene_biotype:protein_coding transcript_biotype:retained_intron gene_symbol:TTN description:titin [Source:HGNC Symbol;Acc:HGNC:12403] 
>ENST00000412264.1 cdna:known chromosome:GRCh38:2:178802287:178830802:-1 gene:ENSG00000155657.24 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:TTN description:titin [Source:HGNC Symbol;Acc:HGNC:12403] 
GCAGTCGTGCATTCCCAGCCTCGCCTCGGGTGTAGGGATTGCATAGAAAAGCAAAACTAC 
ACAGTCTTGACTGTGTAGTTTTGTTTTTAGGATTAGAGGCTCACCGATTCATGTCGGAGA 
TGGTCAGAAAAACCAACTCTCCATAGGACGTCGTTTCAGAAGCAACCTTGGGCTTAGTCC 
CACCCTTTTTAGGCACTCTTGAGAAATCAGAGTGCCTAGAAAGATGACAACTCAAGCACC 
GACGTTTACGCAGCCGTTACAAAGCGTTGTGGTACTGGAGGGTAGTACCGCAACCTTTGA 
GGCTCACATTAGTGGTTTTCCAGTTCCTGAGGTGAGCTGGTTTAGGGATGGCCAGGTGAT 
TTCCACTTCCACTCTGCCCGGCGTGCAGATCTCCTTTAGCGATGGCCGCGCTAAACTGAC 
GATCCCCGCCGTGACTAAAGCCAACAGTGGACGATATTCCCTGAAAGCCACCAATGGATC 
TGGACAAGCGACTAGTACTGCTGAGCTTCTCGTGAAAGCTGAGACAGCACCACCCAACTT 
CGTTCAACGACTGCAGAGCATGACCGTGAGACAAGGAAGCCAAGTGAGACTCCAAGTGAG 
AGTGACTGGAATCCCTACACCTGTGGTGAAGTTCTACCGGGATGGAGCCGAAATCCAGAG 
CTCCCTTGATTTCCAAATTTCACAAGAAGGCGACCTCTACAGCTTACTGATTGCAGAAGC 
ATACCCTGAGGACTCAGGGACCTATTCAGTAAATGCCACCAATAGCGTTGGAAGAGCTAC 
TTCGACTGCTGAATTACTGGTTCAAGGTGAAGAAGAAGTACCTGCTAAAAAGACAAAGAC 
AATTGTTTCGACTGCTCAGATCTCAGAATCAAGACAAACCCGAATTGAAAAGAAGATTGA 
AGCCCACTTTGATGCCAGATCAATTGCAACAGTTGAGATGGTCATAGATGGTGCCGCTGG 
GCAACAGCTGCCACATAAAACACCTCCCAGGATTCCTCCGAAGCCAAAGTCAAGATCCCC 
AACACCACCGTCTATTGCTGCCAAAGCACAGCTGGCTCGGCAGCAGTCCCCATCGCCCAT 
AAGACACTCCCCTTCCCCGGTCAGACACGTGCGGGCACCGACCCCATCTCCGGTCAGGTC 
CGTGTCTCCAGCAGCAAGAATCTCCACATCCCCCATCAGGTCTGTTAGGTCTCCATTGCT 
CATGCGTAAGACTCAGGCATCCACCGTGGCCACAGGTCCTGAAGTGCCTCCCCCTTGGAA 
GCAAGAGGGCTACGTGGCCTCCTCATCTGAGGCTGAGATGAGAGAGACAACGCTGACAAC 
CTCTACTCAGATCAGGACAGAAGAGAGATGGGAAGGGAGATACGGTGTCCAGGAGCAAGT 
GACCATCAGTGGTGCTGCGGGTGCTGCCGCCAGTGTGTCGGCCAGTGCTAGCTACGCAGC 
AGAGGCTGTTGCCACTGGTGCTAAAGAGGTGAAACAAGATGCTGACAAAAGTGCAGCTGT 
TGCGACTGTTGTTGCTGCCGTTGATATGGCCAGAGTGAGAGAACCAGTGATCAGCGCTGT 
AGAGCAGACTGCTCAGAGGACAACCACGACTGCTGTGCACATCCAACCTGCTCAAGAACA 
GGTAAGAAAGGAAGCGGAGAAGACTGCTGTAACTAAGGTAGTAGTGGCCGCCGATAAAGC 
CAAGGAACAAGAATTAAAATCAAGAACCAAAGAAGTAATTACCACAAAGCAAGAGCAGAT 
GCACGTAACTCATGAGCAGATAAGAAAAGAAACTGAAAAAACATTTGTACCAAAGGTAGT 
AATTTCCGCAGCTAAAGCCAAAGAACAAGAAACTAGAATTTCTGAAGAAATTACTAAGAA 
ACAGAAACAAGTAACTCAAGAAGCAATAAGACAGGAAACTGAGATAACTGCTGCATCCAT 
GGTGGTAGTTGCCACTGCAAAGTCCACAAAACTAGAAACAGTCCCGGGAGCTCAAGAAGA 
AACTACCACACAACAAGATCAAATGCACCTAAGTTATGAAAAGATAATGAAGGAAACTAG 
GAAAACAGTTGTACCTAAAGTCATAGTTGCCACACCCAAAGTCAAAGAACAAGATTTAGT 
>ENST00000359218.9 cdna:known chromosome:GRCh38:2:178525989:178807423:-1 gene:ENSG00000155657.24 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:TTN description:titin [Source:HGNC Symbol;Acc:HGNC:12403] 
GCAGTCGTGCATTCCCAGCCTCGCCTCGGGTGTAGGGATTGCATAGAAAAGCAAAACTAC 
ACAGTCTTGACTGTGTAGTTTTGTTTTTAGGATTAGAGGCTCACCGATTCATGTCGGAGA 
TGGTCAGAAAAACCAACTCTCCATAGGACGTCGTTTCAGAAGCAACCTTGGGCTTAGTCC 
CACCCTTTTTAGGCACTCTTGAGAAATCAGAGTGCCTAGAAAGATGACAACTCAAGCACC 
GACGTTTACGCAGCCGTTACAAAGCGTTGTGGTACTGGAGGGTAGTACCGCAACCTTTGA 
GGCTCACATTAGTGGTTTTCCAGTTCCTGAGGTGAGCTGGTTTAGGGATGGCCAGGTGAT 
TTCCACTTCCACTCTGCCCGGCGTGCAGATCTCCTTTAGCGATGGCCGCGCTAAACTGAC 
GATCCCCGCCGTGACTAAAGCCAACAGTGGACGATATTCCCTGAAAGCCACCAATGGATC 
TGGACAAGCGACTAGTACTGCTGAGCTTCTCGTGAAAGCTGAGACAGCACCACCCAACTT 
CGTTCAACGACTGCAGAGCATGACCGTGAGACAAGGAAGCCAAGTGAGACTCCAAGTGAG 
AGTGACTGGAATCCCTACACCTGTGGTGAAGTTCTACCGGGATGGAGCCGAAATCCAGAG 
CTCCCTTGATTTCCAAATTTCACAAGAAGGCGACCTCTACAGCTTACTGATTGCAGAAGC 
ATACCCTGAGGACTCAGGGACCTATTCAGTAAATGCCACCAATAGCGTTGGAAGAGCTAC 
TTCGACTGCTGAATTACTGGTTCAAGGTGAAGAAGAAGTACCTGCTAAAAAGACAAAGAC 
AATTGTTTCGACTGCTCAGATCTCAGAATCAAGACAAACCCGAATTGAAAAGAAGATTGA 
AGCCCACTTTGATGCCAGATCAATTGCAACAGTTGAGATGGTCATAGATGGTGCCGCTGG 
GCAACAGCTGCCACATAAAACACCTCCCAGGATTCCTCCGAAGCCAAAGTCAAGATCCCC 
AACACCACCGTCTATTGCTGCCAAAGCACAGCTGGCTCGGCAGCAGTCCCCATCGCCCAT 
AAGACACTCCCCTTCCCCGGTCAGACACGTGCGGGCACCGACCCCATCTCCGGTCAGGTC 
CGTGTCTCCAGCAGCAAGAATCTCCACATCCCCCATCAGGTCTGTTAGGTCTCCATTGCT 
CATGCGTAAGACTCAGGCATCCACCGTGGCCACAGGTCCTGAAGTGCCTCCCCCTTGGAA 
GCAAGAGGGCTACGTGGCCTCCTCATCTGAGGCTGAGATGAGAGAGACAACGCTGACAAC 
CTCTACTCAGATCAGGACAGAAGAGAGATGGGAAGGGAGATACGGTGTCCAGGAGCAAGT 
GACCATCAGTGGTGCTGCGGGTGCTGCCGCCAGTGTGTCGGCCAGTGCTAGCTACGCAGC 
AGAGGCTGTTGCCACTGGTGCTAAAGAGGTGAAACAAGATGCTGACAAAAGTGCAGCTGT 
TGCGACTGTTGTTGCTGCCGTTGATATGGCCAGAGTGAGAGAACCAGTGATCAGCGCTGT 
AGAGCAGACTGCTCAGAGGACAACCACGACTGCTGTGCACATCCAACCTGCTCAAGAACA 
GGTAAGAAAGGAAGCGGAGAAGACTGCTGTAACTAAGGTAGTAGTGGCCGCCGATAAAGC 
CAAGGAACAAGAATTAAAATCAAGAACCAAAGAAGTAATTACCACAAAGCAAGAGCAGAT 
GCACGTAACTCATGAGCAGATAAGAAAAGAAACTGAAAAAACATTTGTACCAAAGGTAGT 
AATTTCCGCAGCTAAAGCCAAAGAACAAGAAACTAGAATTTCTGAAGAAATTACTAAGAA 
ACAGAAACAAGTAACTCAAGAAGCAATAAGACAGGAAACTGAGATAACTGCTGCATCCAT 
GGTGGTAGTTGCCACTGCAAAGTCCACAAAACTAGAAACAGTCCCGGGAGCTCAAGAAGA 
AACTACCACACAACAAGATCAAATGCACCTAAGTTATGAAAAGATAATGAAGGAAACTAG 
GAAAACAGTTGTACCTAAAGTCATAGTTGCCACACCCAAAGTCAAAGAACAAGATTTAGT 

Die headerlist.txt Datei genau wie folgt aussieht:

ENST00000342992.10 
ENST00000460472.6 
ENST00000589042.5 
ENST00000591111.5 
ENST00000359218.9 
ENST00000615779.4 
ENST00000342175.10 

Ich habe awk-Code geschrieben, die Header sammelt ich zielen möchte, und Sammeln Sie diesen Header mit den folgenden Informationen bis zum nächsten Header.


Ich nenne es mit:

awk -f myScript.txt <headerlist.txt> <informationfile.txt> 

Unten ist der Code:

#!/bin/awk      
NR == FNR {tags[$1]; next;} 
for (i in tags) { if (i ~ $0) {a=1; print; next;}} 
/>/ {a=0} 
a 

sollten Sie folgendes Ergebnis:

>Target Header 
Information attached to header 
. 
. 
. 

Ich bin jedoch einen Syntaxfehler bekommen ohne Informationen dazu. Der Pfeil zeigt auf kein Zeichen nur Leerzeichen.

^ Syntax Error 

Wie würde ich das korrigieren?

+1

Verschieben 'für (i in Tags)' in der geschweiften Klammer. – karakfa

+0

Es läuft. :) - Es produziert jedoch keine Ausgabe. –

+1

Nun, es behebt den Syntaxfehler. Es gibt andere Probleme mit Ihrem Skript, zum Beispiel, was ist der beabsichtigte Gebrauch von 'a'? – karakfa

Antwort

1

Eingang

$ cat HeaderList 
Target Header 
SomeOther Header 

$ cat InfoFile 
>Generic Header 
Information attached to header 
. 
. 
. 
>Target Header 
Information attached to header 
. 
. 
. 
>SomeOther Header 
Information attached to header 
. 
. 
. 

Script

while read line 
    do 
    awk 'BEGIN{RS="\n>"}/'"$line"'/{printf ">%s\n",$0}' InfoFile 
    done <HeaderList 

Ausgabe

>Target Header 
Information attached to header 
. 
. 
. 
>SomeOther Header 
Information attached to header 
. 
. 
. 
+0

Wie würde ich mehrere "Target Header" verwenden? –

+1

@NicholasHayden: Aktualisiert. – sjsam

+0

Danke! Es funktionierte. Ich danke dir sehr! –

1

ich denke, das w ill eine bessere Lösung

$ awk 'NR==FNR{h[$0]; next} 
     $0 in h{c=2} 
     c&&c--' headers file 

>Target Header 
Information attached to header 

sein, wenn Ihre Header genau gleich sind, können Sie mit Gleichheitsprüfung ($ 0 in h) und drucken die beiden Linien entsprechen.

Wenn Sie bis zum nächsten Kopf

$ awk 'NR==FNR{h[$0]; next} 
      /^>/{p=0} 
     $0 in h{p=1} 
       p' headers file 

>Target Header 
Information attached to header 
. 
. 
. 

Mit dem neuen File-Layout drucken möchten dieses Skript als solche

modifiziert werden muss
$ awk 'NR==FNR{h[">"$0]; next} 
      /^>/{p=0} 
     $1 in h{p=1} 
       p' headers file 

solange es einen Leerraum zwischen den ist Schlüssel (in der Header-Datei verwendet) und der Rest des Datensatzes sollte dies funktionieren. Kopfzeilen haben jetzt nicht das Präfix ">".

+0

Ich habe Ihren Code ausgeführt und es produziert keine Ausgabe. Könnten Sie das mit dem Gleichheits-Check erklären? –

+1

Ich benutzte Ihre Eingabedatei genau und die Header-Datei mit "> Target Header". Dies überprüft, ob eine Zeile in der Datei in "h" steht (aus der Header-Datei). Um zu testen, kopiere den Text aus der Frage in eine Datei und erstelle eine Headerdatei mit 'echo"> Zielkopf "> Kopfzeilen' und führe das' awk' Skript aus. – karakfa

+0

Ich versuche, Ihre Ausgabe zu replizieren, und ich bin nicht erfolgreich. Ich habe meine bereitgestellten Eingaben verwendet und versucht, Ihren Code genau einzugeben. –

Verwandte Themen