scikit-learn#

¿Qué es scikit-learn?#

Scikit-learn es una herramienta básica y esencial para el científico de datos en Python. Como veremos aquí y en futuras sesiones, scikit-learn proporciona una impresionante batería de herramientas para:

  • La clasificación de datos

  • La clusterización de datos

  • Reducción de dimensionalidad

  • Comparación y validación de modelos

  • Aprendizaje máquina supervisado y no supervisado

Sea cual sea el propósito de tu trabajo como científico de datos o como científico trabajando en el análisis de datos, scikit-learn es una herramienta que vas a querer usar con frecuencia.

¿Cómo se instala?#

Para ver instrucciones generales de instalación puedes visitar la página oficial. Allí encontrarás indicaciones específicas para tu sistema operativo y/o tu gestor de entornos y paquetes. Aquí supondremos que estás trabajando en tu entorno de conda, así que el comando que debes teclear en la terminal es:

conda install -c conda-forge scikit-learn

¿Cómo se usa?#

Importando Scikit-learn#

Scikit-learn es una herramienta que seguramente importarás módulo a módulo según tus necesidades. Pero si quieres importarla de una vez, el convenio es llamarla como “sk”:

import sklearn as sk

Algunos ejemplos de uso#

Veremos esta librería en acción en otras unidades o a colación de otros temas específicos como por ejemplo los algoritmos de clustering y los algoritmos de reducción de dimensionalidad. Empezaremos esta semana con una revisión a los algoritmos de clustering que propone Scikit-learn.