# Algums experimentos com estatísticas

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from scipy import stats

In [None]:
plt.style.use('ggplot')

Para gerar dados com distribuições dadas, o NumPy tem disponível o módulo `random`, que já usamos ocasionalmente.
Veja a [documentação](https://numpy.org/doc/1.18/reference/random/index.html).

Para a análise estatística de dados, o NumPy providencia alguma funções estatísticas. Veja a [documentação](https://numpy.org/doc/1.18/reference/routines.statistics.html).

Para lidar diretamente com as distribuições, ao invés de gerar dados com base nelas, o módulo `scipy.stats` possui uma grande quantidade de funções e tipos de dados, incluindo:

- Diversas distribuições contínuas e discretas de uma variável.
- Algumas distribuições multivariadas (mais de uma variável).
- Cálculo de diversas estatísticas para um conjunto de dados.
- Análise de frequências.
- Correlação.
- Testes estatísticos.
- E diversos outros.

Dê uma olhada na documentação no [site oficial](https://docs.scipy.org/doc/scipy/reference/stats.html).

Vamos simular sortei com um dado justo, que pode gerar os valores 1 a 6 todos com a mesma probabilidade.

In [None]:
generator = np.random.default_rng()

In [None]:
dice = generator.integers(1, 6, endpoint=True, size=100)

In [None]:
dice

In [None]:
plt.hist(dice, bins=np.arange(0.5, 7.5, 1.0));

In [None]:
plt.hist(dice, bins=np.arange(0.5, 7.5, 1.0), density=True);

In [None]:
dice = generator.integers(1, 6, endpoint=True, size=10000)

In [None]:
plt.hist(dice, bins=np.arange(0.5, 7.5, 1.0), density=True);

In [None]:
np.amin(dice), np.amax(dice)

In [None]:
np.quantile(dice, [1/6, 1/3, 1/2, 2/3, 5/6])

In [None]:
np.median(dice), np.quantile(dice, 0.5)

In [None]:
np.mean(dice), np.std(dice, ddof=1)

In [None]:
avg = (1 + 6)/2
dev = np.sqrt(np.sum(np.arange(1, 7)**2)/6 - avg**2)
avg, dev

In [None]:
bins = np.arange(0.5, 6.5 + 1, 1) # 6 caixas com o meio nos valores inteiros 1 a 6
hist, bins2 = np.histogram(dice, bins=bins, density=True)

In [None]:
assert np.all(bins == bins2)

In [None]:
hist

In [None]:
1/6

Agora vamos usar uma distribuição contínua, com valores aleatórios entre 2 e 10.

In [None]:
values = (10 - 2) * generator.random(size=10000) + 2

In [None]:
np.amin(values), np.amax(values) 

In [None]:
np.quantile(values, [0.25, 0.5, 0.75])

In [None]:
np.median(values)

In [None]:
np.mean(values), np.std(values, ddof=1), np.var(values, ddof=1)

In [None]:
stats.uniform.mean(loc=2, scale=(10-2)), stats.uniform.std(loc=2, scale=(10-2)), stats.uniform.var(loc=2, scale=(10-2))

In [None]:
xvalues = np.linspace(2, 10, 50 + 1)
plt.hist(values, bins=50, density=True, label='data');
plt.plot(xvalues, stats.uniform.pdf(xvalues, loc=2, scale=(10 - 2)), label='distribution')
plt.legend();

In [None]:
plt.hist(values, bins=20);

In [None]:
plt.hist(values, bins=10);

In [None]:
values = (10 - 2) * generator.random(size=1000000) + 2

In [None]:
xvalues = np.linspace(2, 10, 50 + 1)
plt.hist(values, bins=50, density=True, label='data');
plt.plot(xvalues, stats.uniform.pdf(xvalues, loc=2, scale=(10 - 2)), label='distribution')
plt.legend();

In [None]:
np.mean(values), np.std(values, ddof=1), np.var(values, ddof=1)

Vejamos agora uma distribuição normal com média 5 e desvio padrão 2.

In [None]:
values = generator.normal(5, 2, size=10000)

In [None]:
np.amin(values), np.amax(values)

In [None]:
np.quantile(values, [0.25, 0.5, 0.75])

In [None]:
np.mean(values), np.std(values, ddof=1), np.var(values, ddof=1)

In [None]:
minx = np.amin(values)
maxx = np.amax(values)
xvalues = np.linspace(minx, maxx, 50 + 1)
plt.hist(values, bins=50, density=True, label='data');
plt.plot(xvalues, stats.norm.pdf(xvalues, loc=5, scale=2), label='distribution')
plt.legend();

Vejamos como fica a comparação entre a binomial, a Poisson e a normal.

In [None]:
m = 1000000
n = 10000000
mean = 10
p = mean / n
deviation = np.sqrt(n*p*(1-p))
data_binomial = generator.binomial(n, p, size=m)
data_poisson = generator.poisson(mean, size=m)
data_normal = generator.normal(mean, deviation, size=m)

In [None]:
a = np.amin(data_binomial)
b = np.amax(data_binomial)
bins = np.arange(a, b+2)
plt.hist([data_normal, data_binomial, data_poisson], bins=bins, density=True, label=['normal', 'binomial', 'poisson'])
plt.legend();

In [None]:
3*(np.mean(data_binomial)-np.median(data_binomial))/np.std(data_binomial, ddof=1)

In [None]:
3*(np.mean(data_poisson)-np.median(data_poisson))/np.std(data_poisson, ddof=1)

Agora a distribuição lognormal.

In [None]:
data_lognormal = generator.lognormal(5, 2, size=100000)

In [None]:
lgnrm = stats.lognorm(2, loc=0, scale=np.exp(5))

In [None]:
np.amin(data_lognormal), np.amax(data_lognormal)

In [None]:
np.quantile(data_lognormal, [0.25, 0.5, 0.75])

In [None]:
np.mean(data_lognormal), np.std(data_lognormal, ddof=1), np.var(data_lognormal, ddof=1)

In [None]:
m = np.exp(5 + 2*2/2)
s = np.sqrt(np.exp(2 * 5 + 2*2)*(np.exp(2*2) - 1))
m, s

In [None]:
plt.hist(data_lognormal, bins=50, density=True);

In [None]:
start = np.amin(data_lognormal)
finish = np.amax(data_lognormal)
bins = np.logspace(np.log10(start), np.log10(finish), 50)
h, b = np.histogram(data_lognormal, bins=bins, density=True)
plt.loglog(b[:-1], h, label='data')
plt.loglog(bins, lgnrm.pdf(bins), label='distribution')
plt.legend();

Note como a lognormal tem uma ampla gama de valores (várias ordens de grandeza nos dois eixos) e também como aparenta ter uma região quase reta na gráfico loglog, o que tenderia a fazer pensar que ela segue uma regra de lei de potência.

Porisso, é importante tomar cuidado com deduções experimentais que aparentam encontrar leis de potência: elas podem ser uma lognormal. A importância é que uma lei de potência tende a indicar a existência de operação num ponto crítico (possivelmente com criticalidade auto-organizada), mas se for uma lognormal, a conclusão é menos impressionante: apenas que os dados são resultantes de processo aleatórios multiplicativos!