El COVID-19 también afecta al aprendizaje automático de las empresas

  • Opinión
David Mosen, Senior Data Scientist en Crayon

Desde su detección cerca de uno de los centros de producción más grandes del mundo, el sudeste de China, el COVID-19 se ha convertido en uno de los mayores retos a escala global, con repercusiones sociales, económicas y políticas.

Es cierto que el mundo ha experimentado recientemente otras pandemias (SARS, H1N1, Ébola, MERS, Zika), pero la combinación única de severidad media-alta y alta transmisibilidad hace que responder al COVID-19 suponga un mayor desafío. Al mismo tiempo, la interdependencia y mayor vulnerabilidad de la actual economía basada en servicios, junto a múltiples factores que interaccionan para complicar el proceso de desaceleración que se avecina y la posterior recuperación, logran que sus efectos económicos puedan ser mayores que los de la gripe española de hace un siglo. En estos momentos existe una gran incertidumbre acerca de cuándo esta pandemia estará bajo control, cuándo terminará y sobre cómo serán las consecuencias para cada sector y país.

En cualquier caso, aunque es difícil predecir cómo evolucionará la crisis, está claro que algunos de sus efectos se mantendrán en el tiempo. Muchas organizaciones tendrán que modificar sus procesos, especialmente en lo que a teletrabajo y viajes se refiere. Algunas empresas, sobre todo las más pequeñas, no resistirán el estrés financiero y serán empujadas a fusiones y adquisiciones. Es también probable que las circunstancias hagan que aparezcan nuevos modelos de negocio, quizá también más eficientes.

Lidiando con la nueva realidad

La caída económica está clara, pero seguramente hay actividades a las que esta crisis no les va a afectar en absoluto, como, por ejemplo, todo lo relacionado con el machine learning, ¿verdad? Piénselo dos veces... El aprendizaje automático, como concepto abstracto que podríamos pensar que es, está directamente conectado e influenciado por el mundo real, e interactúa con él. Así, el aprendizaje automático también está sintiéndose afectado por esta crisis. Esto es especialmente cierto para las empresas que tienen modelos de aprendizaje automático en producción con el objetivo de obtener inteligencia para previsiones de ventas, optimización de stocks o para el análisis del comportamiento de los clientes. Por lo tanto, las empresas, particularmente aquellas que están basadas en datos y tienen implementadas soluciones de aprendizaje automático, deberían prepararse para ajustar sus procesos.

El lado positivo es que para responder adecuadamente a la nueva situación desde el punto de vista de negocio y, específicamente, desde la práctica del aprendizaje automático, no necesitamos buscar más allá de los modelos de respuesta a crisis de salud pública, ya que pueden convertirse en modelos sorprendentemente buenos. Así, durante las primeras etapas, las epidemias suelen progresar de manera exponencial, hasta el punto de agotamiento de los individuos susceptibles. Por lo general, es en algún momento durante esta fase cuando las autoridades de salud pública detectan el brote, llevando a cabo la vigilancia y la evaluación cualitativa del riesgo. Por lo tanto, una respuesta temprana implica una detección más amplia de casos y una planificación de intervención, seguida de su implementación. Estas respuestas gubernamentales y de negocio generalmente siguen un proceso escalonado, tomando medidas de acuerdo con el momento en el que se alcanzan ciertos umbrales tolerables. Una vez finalizado el brote, llega el momento de desarrollar capacidades, tener en cuenta lecciones aprendidas y formular políticas.

Mapeando dicho proceso a la ciencia de datos y al aprendizaje automático, la vigilancia y la evaluación cualitativa de riesgos se traducen en análisis de datos exploratorios (EDA) de revisión y en la evaluación de cómo los modelos de aprendizaje automático se ven afectados por las características y distribuciones cambiantes de los datos de entrada. Sobre la base de tales observaciones y conclusiones, deberían diseñarse e implementarse planes para adaptar los flujos de trabajo y los modelos en consecuencia, de forma iterativa y gradual, si corresponde, dependiendo de la aplicación específica y de cómo les afecta la incertidumbre derivada de los eventos recientes.

Finalmente, en nuestro contexto, podemos entender el desarrollo de capacidades como una forma de hacer que los modelos de aprendizaje automático sean más robustos y tolerantes a las anomalías en los datos que se derivan de eventos únicos como una epidemia. De la lección aprendida debe surgir un conjunto de acciones que se transformen en pautas de implementación y procedimientos de preparación adaptados, y que incluyan un informe sobre cómo se ven afectados los modelos relevantes, medidas de prevención (por ejemplo , cómo aumentar la robustez ante eventos similares en los modelos actuales y los desarrollados en el futuro) y protocolos de respuesta temprana para minimizar los efectos, establecer responsabilidades y cómo cada proceso, fuente de datos y/o elemento del modelo en vigor deben ser adaptados.

Acciones clave en la estrategia de ML

Estas son las tres acciones clave cuando se trata de lidiar con los eventos actuales desde la perspectiva del aprendizaje automático:

Planificación. Donde sea relevante, los equipos deben planificar con anticipación y llevar a cabo EDA de revisión para resolver cómo adaptar los modelos de ML, haciéndolos más robustos ante los eventos en curso. También deberían aprovechar la oportunidad para desarrollar pautas dirigidas a mejorar la preparación y minimizar los efectos de eventos únicos en modelos susceptibles.

Agilidad. Si es técnica, estadística y económicamente posible, los modelos de múltiples aplicaciones de negocio deberían ser entrenados más a menudo con menos datos, especialmente aquellos en los que existe un fuerte componente temporal. El propósito es ser más ágil y alcanzar la capacidad de capturar la rápidamente cambiante naturaleza de la dimensión socioeconómica del mundo real que se trata de modelar.

Retrospectiva. Los datos históricos se ven afectados. Se introducen valores ausentes, de manera potencialmente intermitente. También se introducen patrones desiguales no representativos de las tendencias y comportamientos futuros. Las razones, las asociaciones y las consecuencias esperadas de tales problemas de datos deben documentarse y, cuando sea posible, minimizarse, para que se traten en el futuro de la mejor manera, ya sea por omisión o por corrección.

David Mosen, Senior Data Scientist en Crayon