Datos Etiquetados. Es la base

En Ilbira Digital Experts somos muy pesados con el tema de los datos. Pero es que es lo que hay.

Unos datos etiquetados y bien estructurados te van a permitir avanzar mucho y aplcar modelos de machine learning que ya aportarán mucho a tu negocio.

¿Cómo funciona? Pues encuentra patrones en tus datos que tu por ti mismo no puedes encontrar.

Imagina un restaurante en el que tienes los siguientes datos tanto internos (tuyos) como externos:

[/fusion_text]
  • Cuándo se hacen las reservas
  • Cuándo se hacen las reservas
  • Número de comensales
  • Día que se canceló la reserva
  • Clima de los días en que los clientes reservan o cancelan
  • Comida que tomaron
  • Número de comensales

¿Eres capaz de analizar esos datos?

Seguramente sí. Es más usando estadística o programación simple podríamos encontrar correlaciones entre los datos que nos dijeran, todos los días que llueve las mesas con mas de 5 comensales cancelan la reserva.

Pero seamos honestos, nunca seremos capaces de encontrar patrones de comportamientos de tus clientes complejos.

El aprendizaje supervisado en Machine Learning con datos etiquetados aprende comportamientos que tu ni por asomo vas a poder analizar.

Los datos otra vez

Por eso le damos tanta importancia a los datos. Porque muchas empresas nos vienen con la idea de que quieren IA pero no saben con un simple proceso de etiquetado de los datos y una buena exploración de los mismos ya tendrá mucha información que no sabe que tenía a mano.

Después vienen algoritmos de Machine Learning básicos de aprendizaje supervisado como las regresiones (lineal o logística), K-Nearest Neighbors, Random Forest, etc.

¿Cuál es el proceso?

 

Cada uno hará el que crea conveniente. Nosotros si es cierto que seguimos paso a paso uno concreto

ETL. Extracción de los datos

Lo normal es que las empresas no tengan los datos a mano. Por lo tanto, lo primero es entender las fuentes de datos y colocarlas todo en un lugar accesible y de una forma ordenada.

EDA. Análisis Exploratorio

Analizamos los datos desde un punto de vista estadístico. Aquí ya tienes un tangible que puedes explotar.

Simplemente entendiendo tus datos ya serás capaz de entender cuales son más interesantes.

Pero lo más interesante en esta fase es que ya habrás entendido el valor del dato. Cambiarás tu comportamiento, entenderás necesidades nuevas en tu negocio.

Pre-procesamiento de los datos

No vamos a inventar la rueda, vamos a lo rápido. Con librerías open source disponible para cualquiera, creamos flujos de trabajo (pipelines) donde hacemos tareas como:

 

  • Decidir que hacemos con los datos inexistentes

  • Poner variables numéricas dentro de un rango

  • Codificar variables para que la estadística las entienda. En otras palabra, un ordenador no puede multiplicar palabras, necesita números.

 

Ejecutamos modelos de ML

Ahora si podemos ejecutar modelos de Machine Learning. La experiencia nos puede hacer escoger uno u otro pero en ocasiones lo que hacemos es ejecutar varios modelos al mismo tiempo y utilizar métricas como ROC o matrices de confusión para entender qué modelos se comportan mejor.

Optimizamos el modelo

Una vez tenemos decidido el modelo o los modelos a utilizar hacemos un proceso conocido por fine-tuning para optimizar los modelos a través de la modificación de los hiperparámetros.

Es normal que te pueda sonar a chino

Parece mucho más complejo de lo que es pero no. La complejidad es más inicial, en el tratamiento de los datos.

Lo normal es que entre el 70% y el 80% del tiempo lo dediquemos a la fase de extracción y entendimiento de los datos.

[/fusion_builder_column][/fusion_builder_row][/fusion_builder_container]

Leave A Comment