Tarefa 1 - Similaridade de enzimas entre organismos.

Os três arquivos anexados representam as sequências DNA de enzima topoisomerase 1 de três organismos: rato (rat.fasta), hamster chinês (hamster.fasta) e cavalo (horse.fasta). Usando sequências armazenadas nestes arquivos:

1) Realize uma comparação de proximidade usando verificação simples entre dois organismos.

2) Faça a contagem de ocorrência de cada aminoácido nas sequências construindo um vetor numérico de ocorrências e calcule as distâncias Manhattan, euclidiana, supremum, e a similaridade de cosseno entre dois organismos.


Observações:

1. Use a função abaixo para ler os arquivos fasta e retornar as sequências DNA como uma variável de texto.

def read_fasta(arq):
seq = ''
  with open(arq) as f:
    f.readline()
    for line in f:
      seq += line.strip()
  return seq

2. A lista de letras que representam os aminoácidos no formato FASTA pode ser encontrada no site https://pt.wikipedia.org/wiki/Formato_FASTA

3. Anexa os programas em Python junto com arquivos de texto de saída que mostram os resultados.

e-Disciplinas - Ambiente de apoio às disciplinas da USP