Datos Etiquetados. Es la base
En Ilbira Digital Experts somos muy pesados con el tema de los datos. Pero es que es lo que hay.
Unos datos etiquetados y bien estructurados te van a permitir avanzar mucho y aplcar modelos de machine learning que ya aportarán mucho a tu negocio.
¿Cómo funciona? Pues encuentra patrones en tus datos que tu por ti mismo no puedes encontrar.
Imagina un restaurante en el que tienes los siguientes datos tanto internos (tuyos) como externos:
[/fusion_text]¿Eres capaz de analizar esos datos?
Seguramente sí. Es más usando estadística o programación simple podríamos encontrar correlaciones entre los datos que nos dijeran, todos los días que llueve las mesas con mas de 5 comensales cancelan la reserva.
Pero seamos honestos, nunca seremos capaces de encontrar patrones de comportamientos de tus clientes complejos.
El aprendizaje supervisado en Machine Learning con datos etiquetados aprende comportamientos que tu ni por asomo vas a poder analizar.
Los datos otra vez
Por eso le damos tanta importancia a los datos. Porque muchas empresas nos vienen con la idea de que quieren IA pero no saben con un simple proceso de etiquetado de los datos y una buena exploración de los mismos ya tendrá mucha información que no sabe que tenía a mano.
Después vienen algoritmos de Machine Learning básicos de aprendizaje supervisado como las regresiones (lineal o logística), K-Nearest Neighbors, Random Forest, etc.
¿Cuál es el proceso?
Cada uno hará el que crea conveniente. Nosotros si es cierto que seguimos paso a paso uno concreto
ETL. Extracción de los datos
Lo normal es que las empresas no tengan los datos a mano. Por lo tanto, lo primero es entender las fuentes de datos y colocarlas todo en un lugar accesible y de una forma ordenada.
EDA. Análisis Exploratorio
Analizamos los datos desde un punto de vista estadístico. Aquí ya tienes un tangible que puedes explotar.
Simplemente entendiendo tus datos ya serás capaz de entender cuales son más interesantes.
Pero lo más interesante en esta fase es que ya habrás entendido el valor del dato. Cambiarás tu comportamiento, entenderás necesidades nuevas en tu negocio.
Pre-procesamiento de los datos
No vamos a inventar la rueda, vamos a lo rápido. Con librerías open source disponible para cualquiera, creamos flujos de trabajo (pipelines) donde hacemos tareas como:
Ejecutamos modelos de ML
Ahora si podemos ejecutar modelos de Machine Learning. La experiencia nos puede hacer escoger uno u otro pero en ocasiones lo que hacemos es ejecutar varios modelos al mismo tiempo y utilizar métricas como ROC o matrices de confusión para entender qué modelos se comportan mejor.
Optimizamos el modelo
Una vez tenemos decidido el modelo o los modelos a utilizar hacemos un proceso conocido por fine-tuning para optimizar los modelos a través de la modificación de los hiperparámetros.
Es normal que te pueda sonar a chino
Parece mucho más complejo de lo que es pero no. La complejidad es más inicial, en el tratamiento de los datos.
Lo normal es que entre el 70% y el 80% del tiempo lo dediquemos a la fase de extracción y entendimiento de los datos.