scikit-learn#
¿Qué es scikit-learn?#
Scikit-learn es una herramienta básica y esencial para el científico de datos en Python. Como veremos aquí y en futuras sesiones, scikit-learn proporciona una impresionante batería de herramientas para:
La clasificación de datos
La clusterización de datos
Reducción de dimensionalidad
Comparación y validación de modelos
Aprendizaje máquina supervisado y no supervisado
Sea cual sea el propósito de tu trabajo como científico de datos o como científico trabajando en el análisis de datos, scikit-learn es una herramienta que vas a querer usar con frecuencia.
¿Cómo se instala?#
Para ver instrucciones generales de instalación puedes visitar la página oficial. Allí encontrarás indicaciones específicas para tu sistema operativo y/o tu gestor de entornos y paquetes. Aquí supondremos que estás trabajando en tu entorno de conda, así que el comando que debes teclear en la terminal es:
conda install -c conda-forge scikit-learn
¿Cómo se usa?#
Importando Scikit-learn#
Scikit-learn es una herramienta que seguramente importarás módulo a módulo según tus necesidades. Pero si quieres importarla de una vez, el convenio es llamarla como “sk”:
import sklearn as sk
Algunos ejemplos de uso#
Veremos esta librería en acción en otras unidades o a colación de otros temas específicos como por ejemplo los algoritmos de clustering y los algoritmos de reducción de dimensionalidad. Empezaremos esta semana con una revisión a los algoritmos de clustering que propone Scikit-learn.