Esses exercícios têm o objetivo de fixar conceitos básicos sobre o equilíbrio de Hardy-Weinberg, contagem de alelos e genótipos e o uso de modelos em genética e evolução.

1. Seleção Natural sobre proporções Hardy-Weinberg

Considere uma população com as seguintes frequências genotípicas:

genótipo pop1
AA 0,36
Aa 0,48
aa 0,16

A assuma que as frequências refletem o que é observado ao nascimento. Nesse momento, a população tem frequências genotípicas que são aquelas esperadas pelo modelo de HW?

Imagine agora que os genótipos ``aa’’ sejam suscetíveis a uma infecção viral, de modo que todos os indivíduos com esse genótipo morram antes de se tornarem adultos, e portanto não contribuam para a amostra. Recalcule frequências genotípicas e alélicas para essa cenário e avalie se a amostra está em equilíbrio de Hardy-Weinberg (não é necessário fazer um teste estatístico).

2. Endogamia

Uma forma de cruzamento não aleatório envolve aquele em que a preferência não se dá em função de um genótipo específico, mas de parentesco. Na endogamia, indivíduos acasalam com parentes mais frequentemente do que esperado ao acaso. Considere a forma mais extrema de endogamia, que é a autofecundação (o indíviduo fertiliza a si mesmo, algo possível quando se trata de um organimos monóicos).

  1. Use os dados da população do primeiro exercício como ponto de partida e preveja as frequências genotípicas e alélicas após uma rodada de autofecundação.

  2. Para comparar a distância das frequências genotípicas observadas após a endogamia em relação às esperadas sob Hardy-Weinberg (isto é, caso não houvesse endogamia), use a seguinte fórmula, que nos dá o valor de \(f\), o coeficiente de endogamia. Em que situação “f” seria zero?

\(F= \frac{H_{esp} - H_{obs} } {H_{esp}}\).

3. População estruturada

Considere uma espécie que está subdividida em dois grupos, cada um habitando um lado de um rio. Eles tem as seguintes frequências genotípicas:

Grupo norte: \(f_{AA} = 0,81 ; f_{Aa} = 0,18; f_{aa} = 0,01\)

Grupo sul: \(f_{AA} = 0,01 ; f_{Aa} = 0,18; f_{aa}= 0,81\)

Calcule a diversidade genética, para cada grupo, usando a métrica \(H\). Vamos chamar esses valores de \(H_{N}\) e \(H_{S}\). Vamos também definir um valor médio para ambos, chamado de \(\bar{H_{S}}\).

Os grupos sul e norte estão individualmente em equilíbrio de HW?

Agora vamos estudar a a população inteira, amalgamando =o norte e do sul. Para esse grupo grande, calcule a frequência alélica e as taxas de heterozigose esperadas (vamos chamar de \(H_t\), por referir-se ao esperado para a população total). Esse grupo inteiro está em equilíbrio de HW?

Podemos, por analogia ao coeficiente de endocruzamento, definir um valor \(F\) que define o quão longe o \(H\) está dos valores esperados sob HW. A métrica tem a forma \(F = \frac{H_{T} - H_{S}}{H_{T}}\). Calcule esse valor e interprete o que ele revela.

4. Para entregar na semana que vem: HW numa amostra genômica

Para termos uma experiência de análise de dados real, preparei um conjunto de dados para investigamos. Esses dados foram obtidos a partir do projeto 1000 genomas, para amostras de 108 indivíduos Yoruba. Baixei todos os SNPs bialélicos do cromossomo 21 e isolei dois conjuntos: os 5000 SNPs na ponto do braço curto e os 5000 SNPs da ponto do braço longo. Fiz essa seleção pois o conjunto total de SNPs seria grande demais para trabalharmos confortavelmente.

Para cada SNP, identifico os três genótipos possíveis, nomeados como ref.ref ref.alt alt.alt. Os “ref” significam que trata-se de um alelo idêntico àquele presente naquela posição no “genoma referência humano”. Os “alt” são aqueles que diferem do referência, e são chamados de alelos alternativos.

Sua tarefa consiste de duas etapas.Primeiro, devem fazer um gráfico em que relaciona as frequências alélicas com as frequências genotípicas esperadas pelo modelo de Hardy-Weinberg.Você terá três funções diferentes, uma para cada genótipo.

A seguir, peço que indiquem para cada SNP disponível onde eles estão no gráfico. Isso envolve apenas plotar, para cada SNP, a frequência genotípica em relação à frequência alélica (fazendo isso separadamente para cada genótipo).

O objeitvo do exercício é relacionar as frequências genotípicas observadas com aquelas esperadas pelo modelo de Hardy-Weinberg.

Teste de Qui-quadrado (\(\chi^{2}\)) para hipótese de equilíbrio de Hardy-Weinberg

O teste qui-quadrado é frequentemente utilizado para verificar se valores obtidos para dados reais correspondem aos esperados por uma previsão teórica. No nosso caso, testaremos se o número de indivíduos em cada classe genotípica corresponde ao esperado sob a hipótese da população estar em equilíbrio de Hardy-Weinberg.

O teste de qui-quadrado quantifica o quão “próximos” ou “distantes” os dados reais estão dos esperados pela teoria. Essa quantificação é feita através da estatística de qui-quadrado, definida abaixo:

\(\chi^2=\sum_{i=1}^{n} \frac{(O_i - E_i)^2}{E_i}\)

Onde n é o número de classes.

Quanto maior o valor de \(\chi^2\), mais distantes estão os dados reais dos observados. Para exprimir essa distância num contexto estatístico,o teste de qui-quadrado se baseia na comparação entre o valor de uma estatística obtida para os dados (neste caso, \(\chi^2\)) e valores críticos apropriados de acordo com o nível de significância (\(\alpha\)) e o número de graus de liberdade (g.l.) do teste.

No caso do teste da hipótese de equilíbrio de Hardy-Weinberg, a previsão teórica testada (Hipótese nula, ou \(H_{0}\)) para os três genótipos (classes) é de que as frequências genotípicas \(F_{AA}\), \(F_{Aa}\) e \(F_{aa}\) (valores observados) estejam nas proporções esperadas \(p^2\), \(2pq\) e \(q^2\) (ocorrendo, portanto, com frequências esperadas \(p^2*N\), \(2pq*N\) e \(q^2*N\)).

AA Aa aa Total
Observado \(F_{AA}\) \(F_{Aa}\) \(F_{aa}\) \(N=F_{AA}+F_{Aa}+F_{aa}\)
Esperado \(p^2N\) \(2pq N\) \(q^2 N\) \(N\)
Contribuição para \(chi^2\) \(\frac{(F_{AA} - p^2 N)^2}{p^2 N}\) \(\frac{(F_{Aa} - 2pq N)^2}{2pq N}\) \(\frac{(F_{aa} - q^2 N)^2}{q^2 N}\) \(\chi^2\)

Após calcular o valor de \(\chi^2\), este é comparado com o valor crítico para o número de graus de liberdade (g.l.) apropriado e nível de significância (\(\alpha\)) desejado. Caso o valor encontrado para \(\chi^2\) seja maior que o valor crítico, rejeita-se a hipótese.

Para o caso do teste de que a população encontra-se em equilíbrio de Hardy-Weinberg para um locus bialélico, em que o número de graus de liberdade é igual a 1, os valores críticos de \(\chi^2\) para diferentes níveis de significância são:

\(\alpha\) 10% 5% 1%
\(\chi^2\) crítico 2,71 3,84 6,63

Se o valor de \(\chi^2\) encontrado for maior que o valor crítico para o \(\alpha\) selecionado, rejeita-se a hipótese de que a população está em equilíbrio de Hardy-Weinberg. Usualmente, adotamos um nível de significância de 5%.