:::{figure} numpylogo.png
:align: center
:width: 50%
:::

<br>

# NumPy

## ¿Qué es NumPy?

NumPy es una librería externa de Python diseñada específicamente para el cálculo científico que facilita el trabajo eficiente con vectores, matrices, números aleatorios, cálculos matemáticos y operaciones de álgebra lineal entre otras cosas.

Habíamos mencionado en la introducción a Python que los lenguages interpretados no son computacionalmente eficientes, ni son rápidos ni gestionan optimamente la memoria. Para superar este inconveniente se pueden programar librerías que trabajan como envoltorios de Python para módulos compilados en otros lenguages. Este es el caso de NumPy cuyo nucleo está programado, y por lo tanto compilado, con C. Además NumPy puede servirnos como [interpretador de librerías en C o Fortran](https://www.numpy.org/devdocs/user/c-info.python-as-glue.html) para poder [invocarlas desde nuestro script en Python](https://scipy-cookbook.readthedocs.io/items/idx_interfacing_with_other_languages.html).

Puede que NumPy sea la librería de Python más popular. La mayoría de librerías que puedes encontrar tiene a NumPy como dependencia.

<br>
<center>
<img src="https://imgs.xkcd.com/comics/matrix_transform.png" width="350">
</center>
<br>

## ¿Cómo se instala?

NumPy suele instalarse automáticamente como dependencia con cualquier librería. No obstante, si no tienes NumPy ya instalado en tu entorno de conda:

```bash
conda install numpy
```

## ¿Cómo se usa?

### Importando NumPy

Existe el convenio de importar NumPy con el alias `np`. Esto mismo sucede con otras librerías, que por su frecuente uso recomiendan un alias de pocos caracteres para invocarlo tecleando poco.

In [None]:
import numpy as np

### Vectores

El objeto más sencillo y popular de NumPy es su vector multidimensional (*ndarray*). Puedes pensar que un *ndarray*, del inglés *n-dimensional array*, es como una lista o una tupla, pero es mucho más que eso. Es una de las maneras más eficientes de manejar datos en memoria y operar con ellos.

Veamos primero como convertir una lista a un *ndarray*:

In [None]:
una_lista = [2,4,6,8,10]

In [None]:
un_vector = np.array(una_lista)

In [None]:
type(un_vector)

In [None]:
un_vector

In [None]:
print(un_vector)

A diferencia de las listas y tuplas, los *ndarrays* no son 'expandibles', pero esto los hace eficientes en memoria y de rápida lectura.

In [None]:
# Esto quizá es lo único que puedes echar de menos de trabajar con listas.
# Ya que nose puede hacer con ndarrays.
una_lista.append(12)
print(una_lista)

Los `ndarrays` tiene una forma fija:

In [None]:
un_vector.shape

Podemos inicializar vectores de forma o dimensión deseada sin necesidad de recurrir a una lista:

In [None]:
vec_1 = np.empty(10)

In [None]:
vec_1.shape

In [None]:
vec_1

El método `np.empty()` reserva el espacio en memoria que aloja el vector, pero no se ocupa de inicializarlo con ningún valor. Es por eso que si lo leemos, antes de haber asignado valores, su contenido es meramente ruido.

Para inicializar algo directamente con valores cero podemos usar `np.zeros()`, y para hacerlo con unos podemos usar `np.ones()`.

In [None]:
vec_1 = np.zeros(6)
vec_2 = np.ones(8)

In [None]:
vec_1

In [None]:
vec_2

Al igual que las variables de Python, los *ndarrays* pueden ser de números enteros, de coma flotante, de doble precisión, de carácteres, variables lógicas, etc. Puedes checar [aquí](https://www.numpy.org/devdocs/user/basics.types.html) la lista de posibles tipos.

In [None]:
vec_1.dtype

In [None]:
vector_auxiliar = np.zeros(4,dtype=bool) # En lógica 0 ~ False y 1 ~ True
print(vector_auxiliar)
vector_auxiliar = np.ones(3,dtype=bool)
print(vector_auxiliar)

In [None]:
vector_auxiliar = np.zeros(4,dtype=int)
print(vector_auxiliar)

In [None]:
vector_auxiliar = np.zeros(4,dtype=complex)
print(vector_auxiliar)

In [None]:
vector_auxiliar = np.zeros(4,dtype='float64')
print(vector_auxiliar)

In [None]:
vector_auxiliar = np.zeros(4,dtype='S3') # para str
print(vector_auxiliar)

Estos objetos tienen también métodos y atributos muy útiles. Hemos visto `shape`, pero hay muchos más. 

In [None]:
dir(vec_1)

Por ejemplo vamos a ver `max`, `argmax`,`mean` o `std`:

In [None]:
vec_1 = np.array([6.0, 10.0, 2.0, 5.0, 7.0, 5.0], dtype=float)
print(vec_1)

In [None]:
help(vec_1.max)

In [None]:
vec_1.max() # devuelve el máximo valor tomado por el vector

In [None]:
help(vec_1.argmax)

In [None]:
vec_1.argmax() # devuelve la posición en la que se encuentra el valor máximo

In [None]:
help(vec_1.mean)

In [None]:
vec_1.mean() # devuelve la media aritmética

In [None]:
help(vec_1.std)

In [None]:
vec_1.std() # devuelve la desviación estandard

### Matrices y vectores multidimensionales

Al comienzo de la sección pasada hemos revelado que *ndarray* viene del inglés *n-dimensional array* (vector n-dimensional, en español). Probablemente sospeches que en realidad podíamos haber definido un objeto *ndarray* de cualquier forma y dimensiones.

In [None]:
matriz = np.zeros((3,3),dtype=int)

In [None]:
matriz.shape

In [None]:
matriz

In [None]:
otra_matriz = np.ones((2,4))

In [None]:
otra_matriz.shape

In [None]:
otra_matriz

In [None]:
la_matriz_transpuesta = otra_matriz.T

In [None]:
la_matriz_transpuesta.shape

In [None]:
la_matriz_transpuesta

In [None]:
un_tensor_de_rango_3 = np.zeros((2,3,5),dtype=bool)

In [None]:
un_tensor_de_rango_3.shape

In [None]:
un_tensor_de_rango_3

In [None]:
un_tensor_de_rango_5 = np.zeros((2,3,2,4,3))

In [None]:
un_tensor_de_rango_5.shape

In [None]:
un_tensor_de_rango_5

### Indexado y cortes de un *ndarray*

Veamos como podemos acceder a los elementos de un *ndarray*:

In [None]:
vector = np.array([4,2,6,1,8,9,3])

In [None]:
vector[0]

In [None]:
vector[3]

In [None]:
vector[-1]

In [None]:
vector[-4]

In [None]:
vector[[1,2,4,5]] # podemos también usar listas de índices

In [None]:
matriz = np.zeros((3,3),dtype=int)

In [None]:
matriz[0,0] = 5
matriz[1,2] = 2
matriz [2,[0,1]] = 1

In [None]:
matriz

Puedo delimitar cortes y fragmentar definiendo regiones. Para esto usamos el símbolo ':'.

In [None]:
vector = np.array([10, 9, 8, 7, 6, 5, 4, 3])

In [None]:
vector[:] # sólo con ':' no estamos estableciendo límites en esta dimensión

In [None]:
vector[2:]

In [None]:
vector[:4]

In [None]:
vector[2:4]

In [None]:
vector[-2:]

In [None]:
vector[-4:-1]

Podemos también decidir cada cuento saco valores en el corte con un segundo símbolo ':'.

In [None]:
vector[::]

In [None]:
vector[::2]

In [None]:
vector[::3]

In [None]:
vector[1:6:]

In [None]:
vector[1:6:2]

In [None]:
vector[-1:-6:-2]

Y esto es extensible a *ndarrays* de veras multidimensionales.

In [None]:
un_tensor = np.zeros((2,4,7))

In [None]:
un_tensor

In [None]:
un_tensor[0,1,3] = 8.0

In [None]:
un_tensor[1,2,:] = -10.0

In [None]:
un_tensor[0,2:3,1:7:2] = 1.0

In [None]:
un_tensor[:,0,6] = 4

In [None]:
un_tensor

In [None]:
un_tensor[0]

In [None]:
un_tensor[0,1,:]

In [None]:
un_tensor[:,0,2:4]

El resultado de indexar o cortar es un nuevo *ndarray*. Así que podemos también aplicar los métodos y atributos que vimos en la sección anterior:

In [None]:
un_tensor[0].max()

In [None]:
un_tensor[:,0,2:4].mean()

### Copias o vistas de un `ndarray`.

Este punto es muy relevante y no tenerlo presente puede crear desastrosos errores de dificil detección en tu código. No se trata de algo inherente a NumPy, más bien es inherente a Python. Mejor que comenzar explicándo la diferencia entre una [copia y vista](https://scipy-cookbook.readthedocs.io/items/ViewsVsCopies.html) (un objeto que apunta o refiere a otro), vamos a dejar que tu solo o sola comiences a inferirlo en el siguiente ejemplo con listas -no son objetos propios de NumPy, ¿cierto?-:

In [None]:
a = [0,1,2]
b = a
b[1] = -7

print(a)
print(b)

In [None]:
a = [0,1,2]
b = a.copy()
b[1] = -7

print(a)
print(b)

¿Entiendes la diferencia? Un objeto está compuesto por el nombre de la variable (`a` o `b`), su valor almacenado en un segmento de la memoria física de la computadora ([0,1,2] en el caso inicial de `a`), y la dirección o referencia de dicho segmento. Es decir, cuando invocamos `a` la computadora mira cuál es la dirección del segmento físico de memoria y comienza a leer su contenido (el valor de la variable).

En Python podemos acceder a la dirección o referencia de una variable y sacarlo por pantalla:

In [None]:
id(a)

Vamos a ayudarnos del método `id` que nos ofrece la dirección del objeto para darle un segundo vistazo a los ejemplos anteriores:

In [None]:
a = [0,1,2]
b = a
print('La dirección de a es:', id(a))
print('La dirección de b es:', id(b))
print(' ')

b[1] = -7

print('El valor de a es:', a)
print('La valor de b es:', b)

In [None]:
a = [0,1,2]
b = a.copy()
print('La dirección de a es:', id(a))
print('La dirección de b es:', id(b))
print(' ')

b[1] = -7

print('El valor de a es:', a)
print('La valor de b es:', b)

En el primer caso, el símbolo '=' crea un objeto `b` que apunta al mismo segmento de memoria. A esto lo podemos llamar 'vista' o 'referencia', ya que sólo se diferencia de `a` en el nombre.

En el segundo caso, `a.copy()` está generando una copia real física: un duplicado del segmento de memoria de `a` en otra región del espacio memoria y por lo tanto con otra dirección. Al hacer `b = a.copy()`, le estamos asignando al nombre de variable `b`, ese nuevo espacio de memoria. Esto se llama 'copia'.

Con un *ndarray* sucede exactamente lo mismo, con un pequeño matiz que veremos más adelante y que aunque te parezca molesto, resulta muy util.

In [None]:
a = np.array([2,4,6])
b = a
print('La dirección de a es:', id(a))
print('La dirección de b es:', id(b))
print(' ')

b[2] = 0

print('El valor de a es:', a)
print('La valor de b es:', b)

In [None]:
a = np.array([2,4,6])
b = a.copy()
print('La dirección de a es:', id(a))
print('La dirección de b es:', id(b))
print(' ')

b[2] = 0

print('El valor de a es:', a)
print('La valor de b es:', b)

El matiz que comentabamos anteriormente es que los *ndarray* nos permiten generar nuevas 'vistas' que apuntan a regiones definidas por cortes:

In [None]:
a = np.array([[2,2,2],[4,4,4],[6,6,6]],dtype=int)

In [None]:
a

In [None]:
a.shape

In [None]:
b = a[1:,1:]

In [None]:
b

In [None]:
b.shape

In [None]:
b[:,:] = 0

In [None]:
b

In [None]:
a

In [None]:
b[0,0] = 1

In [None]:
b

In [None]:
a

In [None]:
a[2,:] = -1

In [None]:
a

In [None]:
b

Cuando se quiera duplicar un objeto *ndarray* generando una copia independiente, hay que recordar que se debe recurrir al método `ndarray.copy()`.


### Manipulación de *ndarrays*

Podemos cambiar la forma de los *ndarrays*, combinarlos, etc.

In [None]:
matrix_1 = np.array([[1, 3, 5, 7], [2, 4, 6, 8]])

In [None]:
matrix_2 = matrix_1.T # La transpuesta intercambia las filas y las columnas
print(matrix_2)

In [None]:
matrix_2 = matrix_1.ravel() # Función de aplanado
print(matrix_2)

In [None]:
matrix_2 = np.array([1, 3, 5, 7, 2, 4, 6, 8]).reshape((2,4)) # Cambia la forma con los mismos elementos
print(matrix_2)

In [None]:
matrix_2 = np.array([1, 3, 5, 7, 2, 4, 6, 8]).reshape((4,2)) # Y si no es la misma cantidad de elementos?
print(matrix_2)

In [None]:
matrix_1.resize((3,5)) # Cambia el tamaño del `ndarray` completando con ceros
print(matrix_1)

In [None]:
matrix_1 = np.array([[1, 2], [3, 4]])
np.tile(matrix_1, (2,3)) # Repite como mosaico

In [None]:
matrix_1 = np.array([[1, 2], [3, 4]]) # repite
np.repeat(matrix_1, 3)

### Álgebra básica para operar con *ndarrays*

Veamos la sintaxis de operaciones sencillas con *ndarrays* que transforman o devuelven otros *ndarrays*

In [None]:
vec_1 = np.array([0,1,2],dtype=int)
vec_2 = np.array([10,9,8],dtype=int)
print(vec_1,vec_2)

In [None]:
vec_3 = vec_1 + 1
print(vec_3)

In [None]:
vec_3 = vec_1*2
print(vec_3)

In [None]:
vec_3 = vec_1**2
print(vec_3)

In [None]:
vec_3 = np.log2(vec_1+1) # Numpy tiene además una gran colección de operaciones matemáticas
print(vec_3)

In [None]:
vec_3 = np.cos(vec_1)
print(vec_3)

In [None]:
vec_3 = vec_1+vec_2
print(vec_3)

In [None]:
vec_3 = vec_1*vec_2 # Esta multiplicación es elemento a elemento
print(vec_3)

In [None]:
vec_3 = np.dot(vec_1,vec_2) # Esta es la multiplicación vectorial conocida como 'dot product'
print(vec_3)

In [None]:
vec_3 = np.matmul(vec_1,vec_2) # Esta es la multiplicación matricial, 'dot product' si son vectores
print(vec_3)

In [None]:
vec_3 = np.cross(vec_1.T,vec_2) # Esta es el producto vectorial, o 'cross product' en inglés.
print(vec_3)

In [None]:
vec_3 = (vec_1>1)
print(vec_3)

In [None]:
vec_3 = (vec_2>vec_1)
print(vec_3)

In [None]:
mat_1 = np.array([[0,1,2],[0,1,2],[0,1,2]],dtype=int)
mat_2 = np.ones((3,3),dtype=int)*2
print(mat_1)
print(mat_2)

In [None]:
mat_3 = mat_1+10
print(mat_3)

In [None]:
mat_3 = mat_1*2
print(mat_3)

In [None]:
mat_3 = mat_1+mat_2
print(mat_3)

In [None]:
mat_3 = mat_1*mat_2 # Esta operación es elemento a elemento: aij*bij
print(mat_3)

In [None]:
mat_3 = np.dot(mat_1,mat_2) # esta operación es el producto matricial
print(mat_3)

In [None]:
mat_3 = np.matmul(mat_1,mat_2) # esta operación es el producto matricial
print(mat_3)

In [None]:
mat_3 = np.matmul(mat_1,vec_1) # esta operación es el producto matricial
print(mat_3)

In [None]:
mat_3 = (mat_1<1)
print(mat_3)

In [None]:
mat_3 = (mat_1!=mat_2)
print(mat_3)

In [None]:
logic_1 = np.zeros((4),dtype=bool)
logic_2 = np.zeros((4),dtype=bool)
logic_1[[1,2]]=True
logic_2[[0,2]]=True
print(logic_1)
print(logic_2)

In [None]:
logic_3 = (logic_1 | logic_2) # "|" es la operación lógica "Or"
print(logic_3)

In [None]:
logic_3 = (logic_1 & logic_2) # "&" es la operación lógica "And"
print(logic_3)

In [None]:
logic_3 = (logic_1 ^ logic_2) # "^" es la operación lógica "Xor"
print(logic_3)

In [None]:
logic_3 = ~logic_1 # "~" es la operación lógica "Not"
print(logic_3)

### Algebra lineal

NumPy tiene [una colección de operaciones de algebra lineal](https://docs.scipy.org/doc/numpy-1.15.1/reference/routines.linalg.html) muy completa. Acudir a NumPy para realizar ciertas operaciones, así como acudir a funciones de Scipy o Scikit-learn (como veremos en los siguientes notebooks), resulta muy conveniente por su eficiencia.

Veamos algún ejemplo:

In [None]:
vec_1 = np.array([2.0, 2.0, 4.0])
mat_1 = np.array([[1.0,0.0,0.0],[0.0,0.0,1.0],[0.0,1.0,0.0]])
print(vec_1)
print(mat_1)

In [None]:
np.linalg.norm(vec_1) # norma del vector

In [None]:
np.linalg.det(mat_1) # determinante de la matriz

In [None]:
np.trace(mat_1) # traza de la matriz

In [None]:
np.transpose(mat_1) # matriz transpuesta

In [None]:
eigenvals, eigenvecs = np.linalg.eig(mat_1) # autovalores y autovectores

print('Autovalores:',eigenvals)
print('Autovectores:',eigenvecs)
print('')

for ii in range(eigenvals.shape[0]):
    print('Autovalor y Autovector ',str(ii),':')
    print('')
    print('\t',eigenvals[ii],eigenvecs[:,ii])
    print('')

In [None]:
eigenvals[1]*eigenvecs[:,1] == np.dot(mat_1,eigenvecs[:,1])

### Generadores y otras funciones útiles

Por último veamos unos generadores de números junto con otras funciones útiles de NumPy que has de saber que existen.

In [None]:
print(list(np.arange(10))) # NumPy tiene un iterador para secuencias

In [None]:
print(list(np.arange(5,15,2))) # NumPy tiene un iterador para secuencias

In [None]:
np.random.random() # Podemos encontrar varios generadores de números aleatorios

In [None]:
random_gaussian_numbers = np.random.normal(0.0,1.0,5000) # 5000 números aleatorios en distribución normal
print('Primeros 5 números aleatorios:',random_gaussian_numbers[:5])
print('Valor promedio:', random_gaussian_numbers.mean())
print('Desviación estandard:', random_gaussian_numbers.std())
print('')

# Encontramos funciones para hacer histogramas
print('Histograma a 5 bins:')
frecuencias, limite_bins = np.histogram(random_gaussian_numbers,bins=5)
print('')
for ii in range(5):
    print('de',limite_bins[ii],'a',limite_bins[ii+1],':',frecuencias[ii])


In [None]:
np.linspace(-10.0,10.0,12) # Generador de puntos equi-espaciados, 12 aquí entre -10.0 y 10.0

In [None]:
np.logspace(1, 10, 5, base=np.e) # Generador de puntos espaciados en escala logarítmica

In [None]:
x, y = np.mgrid[-2:2, 0:5] # Generador de enrejados (grids)
print(x)
print(y)

### Escribiendo y leyendo *ndarrays* en ficheros

NumPy cuenta con su propio formato de archivo para escritura y lectura de `ndarrays` de manera eficiente:

In [None]:
vec_1 = np.array([0, 2, 4, 6])

In [None]:
np.save("fichero_numpy.npy", vec_1)

In [None]:
vec_2 = np.load("fichero_numpy.npy")

In [None]:
print(vec_2)

In [None]:
import os
os.remove("fichero_numpy.npy")
del(vec_2)

Además NumPy está preparado para manejar [una multitud de otro tipo de ficheros](https://docs.scipy.org/doc/numpy-1.15.0/reference/routines.io.html) para la entrada y salida de datos. Por ejemplo csv:

In [None]:
np.savetxt("fichero_numpy.csv", vec_1)

In [None]:
!cat fichero_numpy.csv

In [None]:
vec_2 = np.loadtxt("fichero_numpy.csv")

In [None]:
print(vec_2)

In [None]:
os.remove("fichero_numpy.csv")
del(vec_2)

---

## Dudas, problemas técnicos y soluciones. <a class="anchor" id="dudas"></a>

Para centralizar esas dudas técnicas sobre el tema de este notebook o proponer soluciones o sugerencias más técnicas que queremos encontrar en el futuro comentadas y visibles para todos, haz uso del siguiente canal:

[Foro Técnico: NumPy](https://github.com/uibcdf/Taller-Ciencia-Datos/issues/)

## Más recursos útiles <a class="anchor" id="recursos"></a>

El propósito de este notebook es ser un documento únicamente introductorio. Puedes encontrar -o contribuir añadiendo- más información útil en el siguiente listado:

### Documentación <a class="anchor" id="documentacion"></a>

http://www.numpy.org/    
https://docs.scipy.org/doc/numpy/    
https://www.iaa.csic.es/python/cientifico/numpy.pdf       
http://pcmap.unizar.es/~pilar/python_short.pdf    

### Tutoriales, Webinars y cursos gratuitos <a class="anchor" id="tutoriales"></a>

http://www.learnpython.org/es/Numpy%20Arrays   
http://www.iac.es/sieinvens/python-course/source/numpy.html   
https://geekytheory.com/pylab-parte-2-datos-basicos-numpy     
http://damianavila.github.io/Python-Cientifico-HCC/3_NumPy.html     
https://scipy-cookbook.readthedocs.io/items/idx_numpy.html    
https://jakevdp.github.io/PythonDataScienceHandbook/02.00-introduction-to-numpy.html    