Passo 3: Analise de sequencias das proteínas para identificação de aminoácidos e o número de ocorrências.
Condições de conclusão
Aberto: quarta-feira, 22 mai. 2019, 00:00
Vencimento: segunda-feira, 24 jun. 2019, 23:59
Para entender o formato FASTA estude a descrição dele na Wikipédia. Lá você pode encontrar também a lista completa de letras que descrevem aminoácidos. Alternadamente, os códigos podem ser encontrados no site https://emunix.emich.edu/~evett/BioinformaticsTools/IUB%20Codes.htm.
Para realizar este passo escreva um programa que leia cada arquivo de proteína baixada em formato FASTA, identifique todos os animoácidos e gere um arquivo com o nome no formato 'proteína-aminoacidos.txt' com uma tabela com as seguintes colunas:
Código do aminoácido | Nome completo do aminoácido | O número de ocorrências na sequencia | Lista de posições de ocorrências separadas com vírgula
Prepare um histograma de número de ocorrências de aminoácidos para cada organismo usando a biblioteca matplotlib.