
La ingeniería de datos es una de las fases más críticas en el proceso de construcción de modelos de machine learning y minería de datos. Se refiere al proceso de crear, modificar y transformar atributos (características) para mejorar el rendimiento de los algoritmos. Este módulo comienza con una introducción a los conceptos y definiciones básicas de la ingeniería de atributos, destacando su importancia en el aprendizaje automático. Comprender cómo generar atributos adecuados puede hacer una gran diferencia en la capacidad predictiva de un modelo, además de mejorar su interpretabilidad.
A lo largo del módulo, se explorarán diversas técnicas para el tratamiento de datos, como el manejo de valores faltantes, el equilibrio de conjuntos de datos desequilibrados y la gestión de valores atípicos, que son pasos esenciales para preparar datos de alta calidad. También se analizarán métodos de transformación de atributos, tales como la discretización, numerización, codificación y escalado, con el fin de estandarizar y optimizar las características para los algoritmos. El contenido también cubre la selección y extracción de atributos, donde se introducen técnicas avanzadas de reducción de dimensionalidad para mejorar la eficiencia de los modelos.
Finalmente, el módulo profundiza en la reducción de dimensionalidad, presentando métodos de selección de atributos como filtros, envoltorios y embebidos, además de estrategias de búsqueda y criterios de evaluación. Asimismo, se discutirá la construcción de nuevos atributos a través de transformaciones lineales y no lineales. Estas técnicas no solo mejoran la precisión de los modelos, sino que también reducen la complejidad computacional, haciendo que los modelos sean más manejables y eficientes.
- Profesor: Juan Carlos Cabral Figueredo
- Profesor: Gustavo Sosa Cabrera
- Profesor: José Luis Vázquez Noguera
- Profesor: Juan Carlos Cabral Figueredo
- Profesor: Gustavo Sosa Cabrera
- Profesor: José Luis Vázquez Noguera