# NumPy

O NumPy é um pacote para realizar cálculos numéricos com facilidade e eficiência. Ele é tradicionalmente importado com o nome `np`, como no comando abaixo.

In [None]:
import numpy as np

A principal estrutura de dados do NumPy é o *array*, que representa um array similar aos de C, mas com diversas operações simplificadas, como veremos.

Uma forma de criar arrays é criando-os inicialmente com todos os elementos nulos ou todos os elementos unitários.

In [None]:
np.zeros(10)

In [None]:
np.ones(10)

Note que o array criado tem valores de ponto flutuante; na verdade, de precisão dupla. Podemos especificar o tipo desejado dos elementos, se queremos algo diferente.

In [None]:
np.zeros(10, dtype=np.int)

Outra forma de criar um array é convertendo uma lista Python em um array.

In [None]:
potencias_10 = np.array([1, 10, 100, 1000, 10000])
potencias_10

Arrays podem ser indexados da mesma forma que listas.

In [None]:
potencias_10[2]

In [None]:
potencias_10[0:4:2]

Outras formas úteis de criar arrays permitem gerar valores consecutivos. Por exemplo, temos uma generalização do `range` de Python, mas que aceita valores de ponto flutuante e retorna um array:

In [None]:
np.arange(10)

In [None]:
np.arange(1, 10)

In [None]:
np.arange(1, 10, 2)

In [None]:
np.arange(1, 10, 1.5)

Outra opção similar é especificar o número de intervalos desejados entre o início e o final, ao invés de especificar a separação entre os valores (como acontece no `arange`).

In [None]:
np.linspace(1, 10, 10)

Note que no `linspace` o extremo superior é incluido.

In [None]:
np.linspace(0, 10, 10)

In [None]:
np.linspace(0, 10, 10+1)

Podemos conserguir algumas informações sobre um array acessando alguns campos, como abaixo.

Chamamos de shape a descrição do número de elementos em cada dimensão do array.

In [None]:
potencias_10.shape

Arrays podem ser criados com mais do que uma dimensão. Para isso, passamos uma tupla com os tamanhos nas diversas dimensões.

In [None]:
m0 = np.zeros((5, 10))

In [None]:
m0

Mais tarde podemos consultar o shape para saber o formato do array.

In [None]:
m0.shape

In [None]:
m3 = np.ones((2, 2, 3))

In [None]:
m3

In [None]:
m3.shape

Também podemos verificar qual o tipo de cada um dos elementos do array.

In [None]:
m3.dtype

In [None]:
zzeros = np.ones(10, dtype=np.complex)

In [None]:
zzeros

In [None]:
zzeros.dtype

O tamanho de um array é o número total de elementos, considerando todas as dimensões.

In [None]:
m3.size

In [None]:
potencias_10.size

Uma das coisas que fazem com que os arrays permitam uma programação simples é que podemos realizar operações algébricas sobre um array, o que significa realizar essas operações sobre cada elemento do array.

In [None]:
2 * np.ones(10)

In [None]:
dois = 2 * np.ones(10)
meio = 0.5 * np.ones(10)

In [None]:
dois - meio

In [None]:
dois * meio

In [None]:
dois / meio

In [None]:
3 * dois - meio / 0.1 + 4

In [None]:
3 * np.arange(10) - np.ones(10)

O NumPy também define diversas funções matemáticas que operam sobre arrays aplicando a função a cada um dos elementos do array.

In [None]:
np.exp(np.arange(10))

In [None]:
np.exp(1)

In [None]:
np.sin(np.linspace(0, 2*np.pi,10))

Também é fornecido um módulo de geração de números pseudo-aleatórios:

In [None]:
np.random.random(10)

In [None]:
np.random.random((4,4))

Algumas funções especiais sobre arrays:

In [None]:
np.sum(np.ones(10))

In [None]:
np.sum(np.arange(10))

In [None]:
sum(np.ones(10))

In [None]:
np.prod(np.arange(1,10))

In [None]:
alea = np.random.random(100)

In [None]:
np.min(alea)

In [None]:
np.max(alea)

In [None]:
min(alea), max(alea)

In [None]:
np.cumsum(np.arange(10))

`cumsum` retorna um array que no índice `i` tem a soma dos valores do array original dos índices 0 até `i`.

Vejamos agora algumas formas de indexar arrays.

In [None]:
sequencia = 10 * np.arange(100)

Eles podem ser indexados como listas de Python.

In [None]:
sequencia[2]

In [None]:
sequencia[1:4]

In [None]:
sequencia[10:-10]

Arrays multidimensionais são indexados usando uma tupla como índice.

In [None]:
mat = np.array([[1, 2, 3], [10, 20, 30]])

In [None]:
mat.shape

In [None]:
mat

In [None]:
mat[0, 2]

In [None]:
mat[1, 1]

Usando slices em algum dos índices, pegamos todos os valores de índice correspondentes.

In [None]:
mat[:, 2]

In [None]:
mat[:, 0:2]

Também podemos fornecer um array de índices:

In [None]:
ind = np.arange(10, 90, 2)

In [None]:
ind

In [None]:
sequencia[ind]

Ou uma lista de índices (que será convertida para um array).

In [None]:
sequencia[[4, 7]]

Um fator importante a considerar é que quando indexamos um array, o valor retornado não é uma cópia dos valores do array original (como ocorre no caso de listas), mas sim o que é chamado de uma nova **visão** (*view*) dos elementos indexados.

Isso quer dizer que podemos alterar os elementos indexados diretamente.

In [None]:
sequencia

In [None]:
sequencia[ind] = -sequencia[ind]

In [None]:
sequencia

In [None]:
sequencia[ind] = -1

In [None]:
sequencia

Ainda uma opção bastante útil é usar um array the booleanos para indexar. Neste caso, o array the booleanos deve ter o mesmo tamanho do array indexado, e serão escolhidos os elementos para os quais o índice for `True`.

In [None]:
alguns = np.zeros_like(sequencia, dtype=np.bool) # em bool, 0 é False, 1 é True
alguns[3:10] = True
alguns[15:21] = True
alguns[80:90] = True
alguns

In [None]:
sequencia[alguns]

Uma das grandes utilidades disso é porque um array the booleanos é retornado quando fazemos comparação de arrays:

In [None]:
sequencia < 0

In [None]:
sequencia[sequencia < 0] = 0
# sequencia < 0 retorna um array de booleanos com True apenas nos elementos negativos
# sequencia[sequencia < 0] é o sub-array dos valores negativos de sequencia
# A todos os elementos desse sub-array, atribuimos 0
# Resultado final: os valores negativos de sequencia são zerados.
sequencia

In [None]:
m = np.array([[1, -2, 0], [-1, 2, 0]])
m

In [None]:
m < 0

In [None]:
m[m<0]

Podemos também gerar **outra visão** de um array simplesmente encarando os mesmos valores como se fossem um array de outras dimensões.

In [None]:
ret = sequencia.reshape((10, 10))

In [None]:
sequencia.size, ret.size

In [None]:
sequencia.shape, ret.shape

In [None]:
ret

Como essa é uma outra visão, se alteramos o array `ret` estamos também alterando o array orginal `sequencia`.

In [None]:
ret[9, 9] = 9999

In [None]:
ret

In [None]:
sequencia

Podemos também construir um array juntando pedaços de outros arrays.

In [None]:
p1 = np.zeros(8)

In [None]:
p2 = np.ones(8)

In [None]:
np.concatenate((p1, p2))

In [None]:
np.concatenate((p1.reshape((8,1)), p2.reshape(8,1)), axis=1)

In [None]:
np.concatenate((p1.reshape((1,8)), p2.reshape(1,8)), axis=0)

O parâmetros `axis` especifica a dimensão a usar para fazer a concatenação (0: linha, 1: colunas, etc).

Também podemos separar um array em diversos pedaços.

In [None]:
a, b = np.split(np.arange(20), 2) # Separa em duas partes, uma vai para a outra para b

In [None]:
a

In [None]:
b

Existem diversas formas de realizar o `split`, dependendo dos parâmetros passados. Procure a documentação na Internet para mais detalhes. 

O `split` também gera um **view**, ao invés de arrays novos.

In [None]:
c = np.arange(20)
a, b = np.split(c, 2)
a[0] = 100
b[0] = 200
c

Ao lidar com array, os arrays de 1 dimensão são bastante versáteis e úteis, porém temos que tomar cuidado quando estamos fazendo cálculos matriciais, pois neste caso termos vetores linha (que correspondem a uma matriz $N \times 1$) e vetores coluna (que correspondem a uma matriz $1 \times N$). **Os arrays unidimensionais de NumPy não correspondem a nenhum desses casos.**

Minha recomendação é, quando realizando cálculos matriciais, utilizar sempre explicitamente arrays $N\times 1$ ou $1\times N$, conforme o apropriado.

Por exemplo, o produto de matrizes é realizado pela função `dot` de NumPy:

In [None]:
m1 = np.array([[1, 2], [3, 4]])
m2 = np.array([[1, 0],[0, 1]])
print(m1)
print(m2)

Este é o produto elemento a elemento:

In [None]:
m1 * m2

Este é o produto de matrizes.

In [None]:
np.dot(m1, m2)

In [None]:
v1 = np.array([1, 2]).reshape((1, 2))
v2 = np.array([1, 2]).reshape((2, 1))
print('v1.shape=', v1.shape, 'v2.shape=', v2.shape)
print('v1:\n', v1)
print('v2:\n', v2)

In [None]:
np.dot(v1, m1)

In [None]:
np.dot(m1, v2)

In [None]:
np.dot(v1, v2)

In [None]:
v3 = np.array([1,2])

In [None]:
np.dot(v3, m1)

In [None]:
np.dot(m1, v3)

In [None]:
np.dot(v3, v3)

In [None]:
v3 * m1

In [None]:
m1 * v3

In [None]:
v3 * v3

Para o `numpy.dot`, as regras são as de multiplicação de matrizes. Para as outras operações, a explicação desses resultados é através das **regras de _broadcast_**.

Dados dois arrays, as dimensões são alinhadas a partir da mais à direita. Os valores de tamanho em uma dimensão são compatíveis se eles são iguais ou se um deles é 1. Se o número de dimensões é diferente, o com menos dimensões tem seu número de dimensões expandido, colocando tamanhos 1 em cada nova dimensão. Dimensões de tamanho 1 são esticadas por cópia para o tamanho no outro array.

Por exemplo, se operamos array $2\times 3\times 5$ com outro $3\times 1$, os passos são os seguintes:
- Ajusta à direita:
```
 2 3 5
 3 1
```
- Aumenta o número de dimensões do menor, acrescentando um dimensão de tamanho 1.
```
 2 3 5
 1 3 1
```
- Estica as dimensões 1 que correspondem a dimensões maiores no outro array, fazendo cópias.
```
 2 3 5
 2 3 5
```
- Realiza as operações elemento a elemento.

In [None]:
a = 2 * np.arange(0, 30, 1).reshape((2, 3, 5))
b = 3 * np.arange(1,4,1).reshape((3, 1))

In [None]:
a

In [None]:
b

In [None]:
a - b

Operar sobre todos os elementos de um array NumPy simultaneamente é bastante conveniente. Porisso, muitas vezes você vai querer implementar funções Python que operam dessa forma.

Existem dois modos em que isso pode ser feito, adequados para situações diferentes. O primeiro caso é quando a nossa função realiza apenas operações já definidas sobre arrays NumPy da forma que desejamos. Por exemplo, suponha que temos uma função que calcula um polinômio:

In [None]:
def my_poly(x):
 return 2 * x**2 - 3 * x + 4

Essa função pode ser aplicada sobre escalares:

In [None]:
print(my_poly(3))
print(my_poly(5.1))
print(my_poly(2+1j))

Mas ela também pode ser aplicada diretamente a arrays NumPy:

In [None]:
my_arr = np.array([1, 2, 3, 4])
print(my_poly(my_arr))

Isto funciona pois a função `my_poly` usa apenas operações definidas para arrays NumPy: exponenciação com escalar, produto por escalar, subtração de arrays. Assim, quando chamamos `my_poly(my_arr)` a variável `x` de `my_poly` referenciará o mesmo array que `my_arr`, e estaremos fazendo

 2 * my_arr**2 - 3 * my_arr + 4
 
O que, como esperado, executará as diversas operações elemento a elemento.

Infelizmente, isto não sempre funciona, falhando quando a função realiza alguma operação não definida para arrays NumPy. Por exemplo, suponha a função seguinte:

In [None]:
def region(x):
 if x < 2:
 return 0
 elif x < 4:
 return 1
 else:
 return 2

Esta função funciona para escalares (que tem ordem total):

In [None]:
print(region(3))
print(region(5.1))

Mas ela não funciona para arrays:

In [None]:
print(region(my_arr))

Novamente, isso ocorre porque o `x` da função `region` será uma referência para um array, e neste caso a comparação `x < 2` (por exemplo) no `if` retorna um array de booleanos, ao invés de um booleano, como esperado pelo Python.

O que desejamos é que essa função seja aplicada individualmente a cada elemento do array. Isto é denominado em NumPy de **vetorização**. Para isto funcionar, precisamos soliciar ao NumPy que gere uma versão vetorizada da função, usando a função `np.vectorize`:

In [None]:
region = np.vectorize(region)

Agora podemos passar um array para essa função, e ela será chamada para cada um dos elementos:

In [None]:
print(region(my_arr))

O que acontece é que, ao chamarmos `np.vectorize` para uma função criamos uma nova função que aplica a função original a cada um dos elementos do array passado, ao invés de passar o array diretamente para a função, como antes.

Note que colocamos a nova função retornada por `np.vectorize` numa variável com o mesmo nome da função original. Isto não gera problemas, pois a função continua podendo ser aplicada a escalares, retornando um array de 1 elemento:

In [None]:
region(3)

Se isso for inconveniente para o seu código, você pode colocar a função vetorizada em uma variável com nome diferente.

A principal razão para a existência de NumPy é permitir executar códigos numéricos com boa eficiência em Python. Então, para não deixar a questão de eficiência sem mencionar, vamos fazer um experimento simples: Calcular o cosseno de diversos ângulos igualmente espaçados entre 0 e $2\pi$, usando Python puro e NumPy.

In [None]:
import math

In [None]:
N = 100000

In [None]:
%%timeit
res = []
for i in range(N+1):
 xi = 2 * i * math.pi/N
 res.append(math.cos(xi))

In [None]:
%%timeit 
[math.cos(2*i*math.pi/N) for i in range(N+1)]

In [None]:
%timeit list(map(lambda i: math.cos(2*i*math.pi/N), range(N+1)))

In [None]:
%timeit np.cos(np.linspace(0, 2*np.pi, N+1))