<br>
<center>
<img src="https://upload.wikimedia.org/wikipedia/commons/e/ed/Pandas_logo.svg" width="50%">
</center>
<br>

# Pandas

## ¿Qué es Pandas?

Seguramente conoces la aplicación de Microsoft llamada Excel para trabajar con hojas de cálculo. Seguramente lo has usado alguna vez.
Pues si tenemos que contarte de una manera directa y sencilla qué es Pandas, Pandas es el "Excel" de Python. Bueno, cuando lo conozcas pensarás que la comparación no es del todo apropiada... pero para tener una primera idea, la imagen es muy útil.

Pandas es una muy potente librería para el análisis y la manipulación de datos. Estos datos se trabajan en dos tipos de estructuras: el marco de datos (*DataFrame*) y la serie de datos. Podrías pensar que la primera estructura es lo que conocías como "hoja de cálculo" y la serie como su propio nombre indica es una columna de esa "hoja de cálculo".

Pandas es una de las herramientas más populares para el trabajo en ciencia de datos. Encontrarás muchas herramientas para el análisis de tus datos, y como veremos con la librería Seaborn, el "marco de datos" de Pandas se ha convertido en otro standard de almacenamiento de datos usado al igual que los arreglos de Numpy en muchas otras librerías.

Pero mejor que describir qué es Pandas, es que veamos un poquito cómo funciona y qué es un marco de datos (*DataFrame*).

## ¿Cómo se instala?

Para ver instrucciones generales de instalación puedes visitar la página oficial. Allí encontrarás indicaciones específicas para tu sistema operativo y/o tu gestor de entornos y paquetes. Aquí supondremos que estás trabajando en tu entorno de conda, así que el comando que debes teclear en la terminal es:

```bash
conda install -c conda-forge pandas
```

## ¿Cómo se usa?

### Importando Pandas

In [1]:
import pandas as pd

### El Pandas DataFrame

Veamos con un ejemplo lo que es un DataFrame de Pandas.

Supongamos que tenemos un conjunto de datos de 5 especies distintas "A", "B", "C", "D" y "E". Estos datos son el valor numérico de 4 atributos: "Atributo 1", "Atributo 2", "Atributo 3" y "Atributo 4". Para generar los datos vamos a hacer uso de la misma estrategia que viste en uno de los retos de la semana pasada:

In [2]:
from sklearn import datasets

dataset, membership = datasets.make_blobs(n_samples=500, n_features=4, centers=5, cluster_std=1.0)

cluster_a_especie = {0:'A', 1:'B', 2:'C', 3:'D', 4:'E'}
especies = [cluster_a_especie[ii] for ii in membership]

Tenemos los datos numéricos de los atributos en un arreglo de Numpy de tamaño (500,4) y la especie a la que pertenece cada individuo en una lista de longitud 500:

In [3]:
type(dataset)

numpy.ndarray

In [4]:
dataset.shape

(500, 4)

In [5]:
type(especies)

list

In [6]:
len(especies)

500

¿No sería muy útil tener todas los datos en un solo objeto? Y si además ese objeto me proporciona herramientas de manipulación y análisis... Pues te presento al marco de datos (*DataFrame*) de Pandas: 

In [7]:
dataframe = pd.DataFrame()

In [8]:
dataframe['Atributo 1']=dataset[:,0]
dataframe['Atributo 2']=dataset[:,1]
dataframe['Atributo 3']=dataset[:,2]
dataframe['Atributo 4']=dataset[:,3]
dataframe['Especie']=especies

In [9]:
dataframe

Unnamed: 0,Atributo 1,Atributo 2,Atributo 3,Atributo 4,Especie
0,-6.815799,7.467447,6.738283,9.606917,A
1,-5.712918,7.567293,-7.294221,-1.884969,C
2,-4.307045,6.647996,-9.107489,-5.050177,C
3,5.949649,-1.589595,-2.847567,-4.911876,E
4,-4.971343,10.520306,6.021922,7.755137,A
...,...,...,...,...,...
495,-7.273913,7.927145,6.158785,8.755892,A
496,-7.288425,9.660393,6.366149,7.717968,A
497,3.671407,-7.152684,-0.085322,9.231663,D
498,-2.429242,-8.261402,1.645106,7.634529,B


Podemos acceder a un cualquiera de las columnas para obtener la serie correspondiente:

In [10]:
atributo_3 = dataframe['Atributo 3']

In [11]:
atributo_3

0      6.738283
1     -7.294221
2     -9.107489
3     -2.847567
4      6.021922
         ...   
495    6.158785
496    6.366149
497   -0.085322
498    1.645106
499   -3.429646
Name: Atributo 3, Length: 500, dtype: float64

### Un primer vistazo estadístico

Pandas cuenta con una función que arroja información estadística como el promedio, la desviación estandard, los valores mínimo y máximo y tres distintos percentiles:

In [12]:
dataframe.describe()

Unnamed: 0,Atributo 1,Atributo 2,Atributo 3,Atributo 4
count,500.0,500.0,500.0,500.0
mean,0.083621,-0.179315,-0.894866,3.67649
std,5.980066,7.381803,4.957523,6.158585
min,-9.658388,-10.489517,-11.114376,-6.455678
25%,-5.550689,-7.605807,-3.800737,-3.417147
50%,-0.597883,-1.809617,-0.818918,7.74674
75%,6.144878,7.805492,1.646126,8.850281
max,10.853309,11.901442,8.87646,11.756459


### Manipulando el Dataframe

Veamos unos ejemplos de cómo manipular el DataFrame. Por ejemplo, vamos a ordenar los datos de acuerdo al valor de la column 'Especie':

In [13]:
dataframe.sort_values(by=["Especie", "Atributo 1"])

Unnamed: 0,Atributo 1,Atributo 2,Atributo 3,Atributo 4,Especie
30,-9.658388,7.924826,6.955377,7.889124,A
359,-9.592046,9.952934,4.511920,9.123362,A
343,-9.390117,7.502232,5.983621,7.543220,A
128,-9.372518,7.266793,8.775242,9.312520,A
332,-9.303570,8.537252,5.917098,10.747440,A
...,...,...,...,...,...
423,9.455469,-1.459855,-3.039752,-4.257921,E
54,9.739561,-1.939237,-2.963169,-3.555515,E
420,9.750791,-3.176615,-2.297938,-4.888026,E
216,9.784501,-4.034924,-2.169143,-3.400655,E


Vamos a remover una columna del DataFrame:

In [14]:
dataframe = dataframe.drop('Atributo 3', axis = 1)

In [15]:
dataframe

Unnamed: 0,Atributo 1,Atributo 2,Atributo 4,Especie
0,-6.815799,7.467447,9.606917,A
1,-5.712918,7.567293,-1.884969,C
2,-4.307045,6.647996,-5.050177,C
3,5.949649,-1.589595,-4.911876,E
4,-4.971343,10.520306,7.755137,A
...,...,...,...,...
495,-7.273913,7.927145,8.755892,A
496,-7.288425,9.660393,7.717968,A
497,3.671407,-7.152684,9.231663,D
498,-2.429242,-8.261402,7.634529,B


Y ahora vamos a añadir una columna:

In [16]:
dataframe['Atributo 3']=atributo_3

In [17]:
dataframe

Unnamed: 0,Atributo 1,Atributo 2,Atributo 4,Especie,Atributo 3
0,-6.815799,7.467447,9.606917,A,6.738283
1,-5.712918,7.567293,-1.884969,C,-7.294221
2,-4.307045,6.647996,-5.050177,C,-9.107489
3,5.949649,-1.589595,-4.911876,E,-2.847567
4,-4.971343,10.520306,7.755137,A,6.021922
...,...,...,...,...,...
495,-7.273913,7.927145,8.755892,A,6.158785
496,-7.288425,9.660393,7.717968,A,6.366149
497,3.671407,-7.152684,9.231663,D,-0.085322
498,-2.429242,-8.261402,7.634529,B,1.645106


Podemos reordenar las columnas de las siguientes maneras:

In [18]:
dataframe = dataframe[[ 'Atributo 1', 'Atributo 2', 'Atributo 3', 'Atributo 4', 'Especie' ]]

In [19]:
dataframe

Unnamed: 0,Atributo 1,Atributo 2,Atributo 3,Atributo 4,Especie
0,-6.815799,7.467447,6.738283,9.606917,A
1,-5.712918,7.567293,-7.294221,-1.884969,C
2,-4.307045,6.647996,-9.107489,-5.050177,C
3,5.949649,-1.589595,-2.847567,-4.911876,E
4,-4.971343,10.520306,6.021922,7.755137,A
...,...,...,...,...,...
495,-7.273913,7.927145,6.158785,8.755892,A
496,-7.288425,9.660393,6.366149,7.717968,A
497,3.671407,-7.152684,-0.085322,9.231663,D
498,-2.429242,-8.261402,1.645106,7.634529,B


### Seleccionando elementos

Vimos como seleccionar una columna:

In [20]:
dataframe['Atributo 2']

0       7.467447
1       7.567293
2       6.647996
3      -1.589595
4      10.520306
         ...    
495     7.927145
496     9.660393
497    -7.152684
498    -8.261402
499    -1.231443
Name: Atributo 2, Length: 500, dtype: float64

Veamos ahora como seleccionar una fila:

In [21]:
dataframe.iloc[2]

Atributo 1   -4.307045
Atributo 2    6.647996
Atributo 3   -9.107489
Atributo 4   -5.050177
Especie              C
Name: 2, dtype: object

O podemos seleccionar un valor concreto:

In [22]:
dataframe['Atributo 2'].iloc[2]

6.647995631370559

### Haciendo búsquedas

Podemos hacer búsquedas en los DataFrame, por ejemplo:

In [23]:
dataframe.query("Especie=='B' and `Atributo 2`<`Atributo 3`")

Unnamed: 0,Atributo 1,Atributo 2,Atributo 3,Atributo 4,Especie
14,-0.233198,-9.338598,-0.764286,7.903953,B
22,-0.165150,-8.348967,0.272908,7.539150,B
29,0.403926,-7.225731,0.543545,8.911824,B
33,0.243610,-9.215693,2.030015,8.633621,B
35,0.761484,-7.685539,-0.789459,9.058672,B
...,...,...,...,...,...
480,1.044326,-6.558469,-0.447440,7.662680,B
483,-0.393558,-8.464911,0.847933,7.948091,B
485,-0.804515,-8.653848,1.040438,8.632530,B
494,0.201274,-8.639952,0.905296,10.025408,B


O podemos hacer uso de máscaras lógicas para seleccionar elementos del marco de datos:

In [24]:
mask = (dataframe['Especie']=='B') & (dataframe['Atributo 1'].abs()<7.0)

In [25]:
dataframe[mask]

Unnamed: 0,Atributo 1,Atributo 2,Atributo 3,Atributo 4,Especie
14,-0.233198,-9.338598,-0.764286,7.903953,B
22,-0.165150,-8.348967,0.272908,7.539150,B
29,0.403926,-7.225731,0.543545,8.911824,B
33,0.243610,-9.215693,2.030015,8.633621,B
35,0.761484,-7.685539,-0.789459,9.058672,B
...,...,...,...,...,...
480,1.044326,-6.558469,-0.447440,7.662680,B
483,-0.393558,-8.464911,0.847933,7.948091,B
485,-0.804515,-8.653848,1.040438,8.632530,B
494,0.201274,-8.639952,0.905296,10.025408,B


### Asignando valores

Antes ver unos ejemplos de análisis de datos en el DataFrame, vamos como podemos asignar o reasignar valores:

In [26]:
dataframe.at[1,'Especie'] = 'H'

In [27]:
dataframe

Unnamed: 0,Atributo 1,Atributo 2,Atributo 3,Atributo 4,Especie
0,-6.815799,7.467447,6.738283,9.606917,A
1,-5.712918,7.567293,-7.294221,-1.884969,H
2,-4.307045,6.647996,-9.107489,-5.050177,C
3,5.949649,-1.589595,-2.847567,-4.911876,E
4,-4.971343,10.520306,6.021922,7.755137,A
...,...,...,...,...,...
495,-7.273913,7.927145,6.158785,8.755892,A
496,-7.288425,9.660393,6.366149,7.717968,A
497,3.671407,-7.152684,-0.085322,9.231663,D
498,-2.429242,-8.261402,1.645106,7.634529,B


### Algunos análisis como muestra

Pandas ofrece junto al objeto DataFrame una larga batería de análisis. Veamos un par de ejemplos para que quien no conoce Pandas pueda tener una idea de qué cosas puede esperar de esta librería.

Calculemos por ejemplo el valor promedio de cada atributo para la especie 'B':

In [28]:
dataframe.groupby('Especie').mean()

Unnamed: 0_level_0,Atributo 1,Atributo 2,Atributo 3,Atributo 4
Especie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,-7.493515,9.430761,6.606348,8.626754
B,-0.683878,-8.123168,1.025135,8.522841
C,-4.820506,7.199381,-8.222529,-3.243466
D,5.446843,-7.560125,-0.888872,8.7488
E,7.978084,-1.847103,-3.003695,-4.286065
H,-5.712918,7.567293,-7.294221,-1.884969


Vamos por ejemplo a suponer por ejemplo que el marco de datos tiene un defecto, falta concretamente el valor del Atributo 3 de la fila con índice 2. En su lugar encontramos "NaN" ("not a number"): 

In [29]:
dataframe

Unnamed: 0,Atributo 1,Atributo 2,Atributo 3,Atributo 4,Especie
0,-6.815799,7.467447,6.738283,9.606917,A
1,-5.712918,7.567293,-7.294221,-1.884969,H
2,-4.307045,6.647996,-9.107489,-5.050177,C
3,5.949649,-1.589595,-2.847567,-4.911876,E
4,-4.971343,10.520306,6.021922,7.755137,A
...,...,...,...,...,...
495,-7.273913,7.927145,6.158785,8.755892,A
496,-7.288425,9.660393,6.366149,7.717968,A
497,3.671407,-7.152684,-0.085322,9.231663,D
498,-2.429242,-8.261402,1.645106,7.634529,B


In [30]:
from numpy import nan

print(f'El valor era: {dataframe["Atributo 3"][2]}')

dataframe.at[2,'Atributo 3'] = nan

El valor era: -9.107489457282


In [31]:
dataframe

Unnamed: 0,Atributo 1,Atributo 2,Atributo 3,Atributo 4,Especie
0,-6.815799,7.467447,6.738283,9.606917,A
1,-5.712918,7.567293,-7.294221,-1.884969,H
2,-4.307045,6.647996,,-5.050177,C
3,5.949649,-1.589595,-2.847567,-4.911876,E
4,-4.971343,10.520306,6.021922,7.755137,A
...,...,...,...,...,...
495,-7.273913,7.927145,6.158785,8.755892,A
496,-7.288425,9.660393,6.366149,7.717968,A
497,3.671407,-7.152684,-0.085322,9.231663,D
498,-2.429242,-8.261402,1.645106,7.634529,B


Vamos a corregir el error interpolando linealmente en el espacio de cuatro dimensiones para inferir el valor faltante:

In [32]:
new_dataframe = dataframe.interpolate(method='linear')

In [33]:
new_dataframe

Unnamed: 0,Atributo 1,Atributo 2,Atributo 3,Atributo 4,Especie
0,-6.815799,7.467447,6.738283,9.606917,A
1,-5.712918,7.567293,-7.294221,-1.884969,H
2,-4.307045,6.647996,-5.070894,-5.050177,C
3,5.949649,-1.589595,-2.847567,-4.911876,E
4,-4.971343,10.520306,6.021922,7.755137,A
...,...,...,...,...,...
495,-7.273913,7.927145,6.158785,8.755892,A
496,-7.288425,9.660393,6.366149,7.717968,A
497,3.671407,-7.152684,-0.085322,9.231663,D
498,-2.429242,-8.261402,1.645106,7.634529,B


Comprobemos si el punto 2, con la corrección inferida, aun se encuentra más cerca del centro geométrico de su especie que del resto:

In [34]:
especie_del_punto = dataframe['Especie'][2]
print(especie_del_punto)

C


In [35]:
from scipy.spatial.distance import euclidean

dataframe_centros = dataframe.groupby('Especie').mean()
coordinates_2 = new_dataframe.loc[2, new_dataframe.columns!="Especie"]

for ii in dataframe_centros.index:
    distancia = euclidean(dataframe_centros.loc[ii,:], coordinates_2)
    print(f'Distancia con el centro de {ii}: {distancia}')

Distancia con el centro de A: 18.47467995958433
Distancia con el centro de B: 21.27681927702089
Distancia con el centro de C: 3.702409419719534
Distancia con el centro de D: 22.47020441206081
Distancia con el centro de E: 15.097956020187357
Distancia con el centro de H: 4.217026571694742


### Exportando e importando datos

Pandas es capaz de leer y/o escribir diversos formatos de fichero. Por mencionar algunos:
- csv
- hdf5
- excel
- json
- sql
- markdown
- html

Vamos a probar a escribir un fichero excel con nuestro marco de datos y a leerlo:

In [36]:
new_dataframe.to_excel('datos.xlsx', sheet_name="Hoja1")

In [37]:
excel_dataframe=pd.read_excel("datos.xlsx", "Hoja1", index_col=0)

In [38]:
excel_dataframe

Unnamed: 0,Atributo 1,Atributo 2,Atributo 3,Atributo 4,Especie
0,-6.815799,7.467447,6.738283,9.606917,A
1,-5.712918,7.567293,-7.294221,-1.884969,H
2,-4.307045,6.647996,-5.070894,-5.050177,C
3,5.949649,-1.589595,-2.847567,-4.911876,E
4,-4.971343,10.520306,6.021922,7.755137,A
...,...,...,...,...,...
495,-7.273913,7.927145,6.158785,8.755892,A
496,-7.288425,9.660393,6.366149,7.717968,A
497,3.671407,-7.152684,-0.085322,9.231663,D
498,-2.429242,-8.261402,1.645106,7.634529,B


### Alternativas

Existen herramientas basadas en Pandas o con la misma filosofía pero con características que pueden ser interesantes según la naturaleza y propiedades de los datos o la infraestructura de cálculo. 

#### De propósito general
- Modin
- Polars
- Dask
- Vaes
- Pyspark

#### De propósito específico
- Biopandas (para bioinformática)