
La imprevisible situación provocada por el COVID-19 ha alterado nuestros hábitos de vida e indudablemente influye en nuestras decisiones. Esto se verá reflejado en los datos de comportamiento y consumo que se introducen en procesos y proyectos de Machine Learning, y especialmente a los modelos de predicción de propensión.
Los modelos de predicción son un artefacto clave del proceso de transformación digital de una empresa. Concretamente, los modelos de predicción de propensión realizan estimaciones de decisiones de clientes en el futuro próximo, explotando relaciones que encuentran en datos de pasados similares. Son útiles prediciendo en masa y especialmente cuando menos habitual es el escenario. Sin embargo, situaciones altamente improbables, como la actual pandemia por COVID-19, introducen una significativa desviación en los datos y condiciones previas. Por ello, se hace necesario poner el foco en supervisar, acotar y entender las predicciones, para mejorar su fiabilidad.
Coronavirus: un cisne negro para los modelos predictivos
En su obra “El cisne negro”, Nassim Taleb trata sobre los sucesos altamente improbables y destaca que algunos, cuando ocurren, pueden poner en jaque nuestra idea del mundo. En algunos casos, nos resultan tan improbables que los tachamos de imposibles.
Y aquí estamos, afrontando una pandemia; una situación que parece más propia de un guión de película de serie B, pero que demuestra que la realidad siempre supera la ficción.
Taleb llama “cisnes negros” a los sucesos que se caracterizan por ser rarezas (están fuera de nuestras expectativas normales), que producen un impacto tremendo y ante los que generaremos explicaciones hasta que encajen con lo que conocíamos. Esta estrategia, aunque explica el suceso de forma aislada, reduce la capacidad de predicción porque no es generalizable.
Por ejemplo: “¿Eso es un cisne? ¡Pero si es negro!, será un pato. Los cisnes son blancos. Será que lo han pintado. Sí, eso me encaja más. Es es un cisne pintado.”
Para aprender de los “cisnes negros” que vamos encontrando debemos generar nuevos conocimientos; ampliar las miras y modificar lo que dábamos por sentado. Cambiar los esquemas con los que explicamos ciertas situaciones es un reto, porque nos saca de nuestra zona de confort.
Y caben dos opciones: salir debilitados si negamos la situación ante el miedo a lo desconocido, o terminar reforzados, si asumimos que las cosas no son como pensábamos y procuramos aprender lo máximo posible de estas situaciones improbables.
Ante lo desconocido, lo único certero es que sabemos poco, por lo que es necesario investigar con mentalidad abierta y generar conocimiento.
Los modelos de propensión a partir de marzo 2020
Al aplicar técnicas de machine learning para construir modelos de propensión (de compra, churn, contratación, fraude u otros) se buscan datos históricos y se espera que se comporten de manera parecida al escenario sobre el que se va a predecir. El entorno y los datos eran bastante estables y uniformes hasta la aparición del “cisne negro” que ha supuesto esta crisis global por la inesperada expansión del virus SARS-CoV-2.
Cuando se preparan estos modelos que lanzan estimaciones, lo habitual es estudiar qué cantidad de histórico conviene utilizar de manera que éste integre estacionalidades, evite sesgos y lo haga con las menores restricciones posibles. También se seleccionan variables y se define el objetivo para que, al entrenar el modelo, se relacionen hechos pasados con hechos futuros, en una supuesta relación de causalidad. Esta manera de unificar datos es la que se ha venido utilizando hasta la fecha y, por lo tanto, así se elaboran la mayoría de los modelos productivos actuales.

Sin embargo, las reglas del juego han cambiado. Los datasets históricos deberán tratarse con cuidado, ya que recogen datos afectados por los eventos de estos últimos meses, por lo que podrían estar sesgados. Los cambios en uso y consumo se reflejarán en comportamientos atípicos de las variables, incluyendo las más informativas. Como consecuencia, se apreciará un salto en la relación entre hechos pasados y futuros, por lo que se alterará la relación de causalidad. Ya hemos visto como ante un “cisne negro” como en el que vivimos en estos momentos, se puede optar por una postura negadora o una posición proactiva.
El caso de las compras online en el periodo de confinamiento
Un ejemplo claro de este brusco cambio en el comportamiento y hábitos son las compras online; se ha podido apreciar que a medida que se han ido implantando las medidas de confinamiento, el número de pedidos online se ha disparado. Si se estuviera utilizando un modelo de propensión que elabora un ranking de clientes propensos a compra online, y realizamos acciones comerciales sobre ellos, deberíamos recordar que vivimos una circunstancia anómala antes de celebrar los resultados.

El modelo en modo “a prueba de fallos”
Ante esta situación, sería interesante evaluar el rendimiento del modelo sin modificaciones, ya que es posible que en determinados segmentos su rendimiento cambie, aunque en otros sea estable. Para ello procederemos como siempre, es decir; estimaremos los datos de los siguientes meses y entrenaremos el modelo incluyendo estos nuevos datos, para comparar métricas.
Para un enfoque más sólido, conviene realizar una auditoría al modelo, que nos aporte perspectivas del estado de salud de su capacidad predictiva, sesgos y otros atributos. También es recomendable realizar simulaciones de diferentes escenarios y elaborar un análisis de explicabilidad e interpretabilidad que permitirá entender y conocer el motivo de la predicción. Estos análisis nos dará pistas del rendimiento ante nuevas situaciones y, finalmente, nos permitirá extraer insights del modelo.

Es prudente prever que la prueba pueda dar resultados pobres. Algunos modelos, por ejemplo los lineales, se pueden dejar llevar por valores extremos y producir salidas sesgadas menos confiables. Para atenuar estos efectos se suelen aplicar procesamientos protectores, basados en métricas de centralidad, que mitigan valores extremos. Sin embargo, estos procesamientos también pueden verse comprometidos a su vez, si no son capaces de absorber las variaciones que afectan al conjunto de la distribución, por ejemplo, si estos procesamientos toman como referencia la mediana del mes anterior o medias móviles más profundas. Por otro lado, también existen modelos que son robustos ante outliers y detectan la tendencia general en la que apoyan sus predicciones.
Manos a la obra
La posible caída en la capacidad predictiva se puede apuntalar con reglas de negocio pre y post-predicción, que lleven a predicciones “con sentido de negocio” y “sentido común”.
Por ejemplo: si nuestro modelo recomienda acción comercial en los domicilios en los que se ha dado un repunte de consumo de energía, sería prudente afinar o acotar el perfil al que se quiere llamar. Es un hecho que las medidas de confinamiento se han seguido mayoritariamente por los ciudadanos, y el #yomequedoencasa se traduce en permanecer en el domicilio, consumiendo por tanto más energía, pero también limitando la movilidad y acceso a otro tipo de bienes de consumo, resultando en un repunte significativo del volumen de compras online.

El mayor esfuerzo está en los re-entrenamientos futuros, ya que sabemos que en su flujo de datos de entrenamiento se incluye un salto brusco en los mismos .
Habría que evaluar diferentes opciones. La más sencilla sería la de comparar las métricas, para ver “como va”, sin hacer cambios en el flujo. Sin embargo, sabemos que sería conveniente evaluar diferentes técnicas antes de aceptar una por buena. Es decir, aplicarlas y comparar sus predicciones con la realidad.
Otras opciones pueden ser: retirar del flujo de datos estos meses, si el workflow lo permite, o aplicar técnicas de sustitución de nulos, ya sea sustituyéndolos con datos refinados en base a meses anteriores o bien parcheando con valores históricos representativos o incluso con predicciones de buenos modelos pasados.
Habrá que estudiar cada caso individualmente, lo que supone tomar el control y seguramente alterar el flujo productivo.
Además del rescatado “Resistiré”, estas fechas nos las recordarán los datos. En el futuro, al construir un modelo de propensión, habrá que dedicar tiempo a las preguntas anteriores, tal y cómo hacemos con el comienzo de registros, faltantes o periodos de inactividad.
El modelo se basa en datos y el experto en la experiencia
Tanta incertidumbre nos recuerda que los modelos no deben dejarse actuar sin supervisión del experto. Y por supuesto no reemplazarle, mucho menos en este tipo de situaciones ya que los modelos tienen una limitada capacidad de maniobra y carecen de autonomía de decisión ante sucesos extraños.
Recordemos que al construir un modelo se priorizan las variables que mejor ajustan la predicción sobre un conjunto de datos pasado y “normal”. Esta priorización potencia las variables informativas en un entorno habitual, pero retira otras que podrían ayudar a gestionar el impacto de situaciones extrañas como esta.
Aunque se pudieran incluir variables sensibles a este contexto de crisis, para hacer un modelo más robusto ante estas circunstancias, hay que tener en cuenta que no existen datos para saber cuáles son.
En contraste, la experiencia que aporta el experto ofrece una visión más amplia y general del entorno en el que se mueve el modelo. El experto puede utilizar el modelo como una herramienta a su disposición, para realizar predicciones más precisas en entornos concretos. En estos días se pone en valor su conocimiento del negocio y especialización utilizando recursos y modelos con conocimiento; no siempre se pueden escoger las situaciones que se viven, pero si podemos escoger la manera en que nos enfrentamos a ellas.
Las fuerzas que escapan a tu control pueden quitarte todo lo que posees excepto una cosa, tu libertad de elegir cómo vas a responder a la situación.
Viktor Frankl
No existe un manual para saber cómo afrontar estas situaciones, pues afortunadamente se han dado en contadas ocasiones. Sin embargo, ante lo altamente improbable, saber combinar vieja escuela y nuevas técnicas abre una oportunidad de aprendizaje y de crecimiento exponencial.
Para mantenerte al día con LUCA visita nuestra página web, suscríbete a LUCA Data Speaks o síguenos en Twitter, LinkedIn y YouTube.
The post Los modelos de propensión ante la crisis del COVID-19 appeared first on Think Big.