Quando um genoma é sequenciado, um passo importante é identificar os genes que estão codificados por esse genoma. Esta tarefa é realizada por software especifico, que geralmente gera a previsão dos genes no genoma em um arquivo chamado de "Generic Feature Format v3" que tem a extensão .gff3. Veja por favor as características do GFF3: http://gmod.org/wiki/GFF3. Durante seu professor resolverá quaisquer dúvidas deste formato.

Neste exercício você tem um arquivo gff3 (https://edisciplinas.usp.br/pluginfile.php/5822826/mod_page/content/5/Thalictrum_thalictroides.gff3.gz?time=1605580461021), resultante da anotação do genoma de uma planta da espécie Thalictrum thalictroides

Para cada fragmento do genoma (os identificadores dos fragmentos do genoma estão na coluna 1) você tem que calcular (para cada uma das fitas, positiva e negativa, separadamente):

  • Numero de genes
  • Número de exons para cada mRNA
  • Número de introns para cada mRNA(Como pode saber o número de introns de cada mRNA?)
  • Comprimento médio dos exons para cada mRNA
  • Comprimento médio dos introns para cada mRNA

Para o genoma como um todo calcular:

  • Número total de genes
  • Número médio de genes por fragmento
  • Comprimento médio dos genes
  • Comprimento médio dos exons
  • Numero médio de exons
  • Numero médio de introns
  • Comprimento médio dos exons
  • Comprimento médio dos introns

Última atualização: quinta-feira, 19 nov. 2020, 20:48