Introducción
El Índice de Estabilidad de la Población (PSI) es una herramienta clave en el ámbito del monitoreo de modelos predictivos. Su propósito es cuantificar la variabilidad entre las distribuciones de distintas subpoblaciones o grupos con dos conjuntos de datos: uno actual y otro de referencia.
Se establece una norma práctica para su interpretación: un PSI por debajo del 10% sugiere que el modelo sigue siendo estable y adecuado para su aplicación. Un valor de PSI entre el 10% y el 25% es una señal de alerta, indicando posibles variaciones que merecen una inspección detallada para discernir las causas subyacentes de tal desviación. Un PSI superior al 25% generalmente es una indicación fuerte para considerar la recalibración del modelo o la construcción de uno nuevo con base en datos más recientes.
Aunque solemos fijarnos en el PSI para los puntajes de crédito y riesgo, es tan versátil que se puede aplicar a cualquier variable que se presente, ya sea continua o categórica.
Notación y cálculo teórico del PSI
El PSI es un indicador que evalúa la consistencia en la distribución de datos a través del tiempo. La fórmula para calcular el PSI cuantifica las variaciones entre las proporciones de los datos en el periodo base y el periodo actual, y se calcula de la siguiente manera:
\text{PSI}(Y_b, Y; B) = \sum_{i=1}^{B} (y_{bi} - y_i) (\ln(y_{bi}) - \ln(y_i))
= \sum_{i=1}^{B} (y_{bi} - y_i) \ln\left(\frac{y_{bi}}{y_i}\right)
Las proporciones y_1,...,y_B son las proporciones de la variable de análisis en el período actual, que caen en la categoría i-ésima y y_{b1}, \ldots, y_{bB} son las proporciones de la variable en el período base o de referencia que caen en la categoría i-ésima donde b representa la base de desarrollo del modelo y B representa el número de categorías.
Para simplificar la fórmula anterior, introduciremos una definición formal del PSI basada en recuentos y tamaños de muestra:
\text{PSI} = \sum_{i=1}^{B} \left( \frac{n_i}{N} - \frac{m_i}{M} \right) \times \left( \ln \frac{n_i}{N} - \ln \frac{m_i}{M} \right)
= \sum_{i=1}^{B} (\hat{p}_i - \hat{q}_i) \times (\ln \hat{p}_i - \ln \hat{q}_i)
donde n_i y m_i son las frecuencias en la categoría i-ésima, \sum n_i = N, \sum m_i = M, \hat{p}_i = \frac{n_i}{N}, \hat{q}_i = \frac{m_i}{M}.
Proporciones nulas
Como observaron Yurdakul y Naranjo (2018), el PSI tiene una deficiencia cuando se trata de proporciones cero, ya sea en las proporciones de referencia o actuales. Para estos casos, se realiza una corrección manual que asigna una observación al grupo con proporción cero para evitar distorsiones del PSI. Esto es,
\hat{p}_i = \frac{n_i}{N} si n_i > 0 y \hat{p}_i = \frac{1}{N} si n_i = 0
\hat{q}_i = \frac{m_i}{M} si m_i > 0 y \hat{q}_i = \frac{1}{M} si m_i = 0
Porque si tuviéramos n_i = 0 y reemplazamos en el caso general, tendríamos \hat{p}_i = \frac{n_i}{N} = \frac{0}{N} = 0, esto nos dejaría con \ln \hat{p}_i = \ln(0) que no está definido.
Por lo tanto, el PSI siempre debe calcularse teniendo en cuenta el caso de las proporciones nulas.
Interpretación de resultados
En la interpretación de resultados una de las métricas más utilizadas es el «RAG» , que se refiere a los colores Rojo, Amarillo y Verde (Red, Amber, Green). Estos colores se utilizan para proporcionar una rápida visualización del estado o desempeño de ciertos indicadores.
Es un sistema de codificación por colores utilizado para indicar el estado o el rendimiento de algo, comúnmente empleado en la gestión de proyectos, seguimiento de desempeño, y otras áreas de evaluación y control.
- Rojo (Red): Indica problemas serios, una situación que requiere atención inmediata o que está fuera de los límites aceptables.
- Ámbar (Amber): Señala advertencia o preocupación, implicando que algo no está funcionando como se esperaba pero aún no es crítico.
- Verde (Green): Muestra que todo está funcionando bien, dentro de los parámetros o expectativas normales.
Umbrales | Interpretación | RAG |
---|---|---|
\text{PSI} > 0,25 | La distribución presenta cambios significativos | R |
0,1 < \text{PSI} \leq 0,25 | La distribución presenta pequeños cambios | A |
\text{PSI} \leq 0,1 | La distribución no presenta cambios significativos | G |
Ejemplo Práctico
Imagina que te han contratado en una entidad financiera para realizar un chequeo de salud del modelo predictivo que usan para evaluar el riesgo de impago de sus clientes. La entidad está interesada en saber si el modelo todavía es fiable o si ha llegado el momento de actualizarlo con nueva información o, incluso, diseñar uno nuevo. Hay dos variables que les preocupan especialmente: «Motor de decisión» y «PD». La razón es que estas variables son clave en la toma de decisiones y, por tanto, es crucial que sus distribuciones no hayan variado significativamente desde que se desarrolló el modelo.
¡Comencemos!
Variable categórica: Motor de decisión
Ahora, concentremos nuestra atención en la variable «Motor de decisión». Esta variable categoriza las decisiones de préstamo en cinco tipos:
- Resto
- Empresa
- Préstamo Joven (menores de 30 años)
- Préstamo a Empleados
- Préstamo Preconcedido
Nuestro objetivo es verificar si la proporción de decisiones en cada categoría se ha mantenido estable desde que el modelo se puso en marcha o si ha habido cambios significativos que podrían afectar la precisión del modelo.
Por un lado, nos han facilitado la base de datos con la que se desarrolló el modelo predictivo, que cuenta con 78.760 observaciones, a partir de ahora nos referiremos a ella como base o referencia. Por otro lado, nos han proporcionado la base de datos de validación, también conocida como Oot (Out of time), que cuenta con 62.544 observaciones, a partir de ahora la llamaremos actual.
A continuación, examinaremos las frecuencias actuales y las compararemos con las frecuencias históricas para determinar si hay diferencias notables.
Motor de decisión | Recuento Base | Recuento Actual | Proporción Base | Proporción Actual | PSI | RAG |
---|---|---|---|---|---|---|
1.Resto | 56.943 | 44.591 | 0,7230 | 0,7130 | 0,0001403947 | |
2.Empresa | 10.616 | 1.910 | 0,1348 | 0,0305 | 0,1547835756 | |
3.Joven | 0 | 3.909 | 0,0000 | 0,0625 | 0,5312402954 | |
4.Empleado | 6.267 | 3.029 | 0,0796 | 0,0484 | 0,0154624215 | |
5.Preconcedido | 4.934 | 9.105 | 0,0626 | 0,1456 | 0,0699285575 | |
Total | 78.760 | 62.544 | 1,0000 | 1,0000 | 0,7715552447 | R |
El cálculo de la primera fila es:
\text{PSI} = \sum_{i=1}^{1} \left( \frac{56.943}{78.760} - \frac{44.591}{62.544} \right) \times \left( \ln \left(\frac{56.943}{78.760} \right) - \ln \left(\frac{44.591}{62.544} \right)\right)
= \sum_{i=1}^{1} (0,7230 - 0,7130) \times (\ln (0,7230) - \ln (0,7130)) = 0,00014
El cálculo de la tercera fila es:
Como se tiene que n_3 = 0 debemos realizar la corrección de las proporciones nulas, por lo que asignamos una observación al tercer grupo, n_3 = 1.
\text{PSI} = \sum_{i=3}^{3} \left( \frac{1}{78.760} - \frac{3.909}{62.544} \right) \times \left( \ln \left(\frac{1}{78.760} \right) - \ln \left(\frac{3.909}{62.544} \right)\right)
= \sum_{i=3}^{3} (0,00001 - 0,0625) \times (\ln (0,00001) - \ln (0,0625)) = 0,53124
El PSI de la variable «Motor de decisión» es:
\text{PSI} = 0,00014 + 0,15478 + 0,53124 + 0,01546 + 0,06992 = 0,77155
Tras analizar la variable categórica «Motor de decisión» con las categorías proporcionadas y calcular el Índice de Estabilidad de la Población (PSI), hemos llegado a un valor de 0,77155. Este resultado se desglosa de la siguiente manera: una contribución mínima de la categoría «1.Resto», una significativa de «2.Empresa», la más elevada de «3.Joven», y aportaciones menores de «4.Empleado» y «5.Preconcedido».
Un PSI de 0,77 sugiere cambios sustanciales en la distribución de esta variable desde la creación del modelo. Generalmente, un PSI por debajo o igual a 0,1 indica estabilidad, entre 0,1 y 0,25 sugiere un cambio moderado, y un valor superior a 0,25 puede indicar una variación significativa que podría requerir una recalibración del modelo o incluso el desarrollo de uno nuevo. Dado que nuestro valor excede ampliamente el umbral de 0,25 se recomienda que la entidad financiera realice una revisión exhaustiva del modelo y considere actualizarlo para reflejar los patrones actuales de decisión de préstamo.
Variable continua: PD
«PD» representa la probabilidad de incumplimiento (Probability of Default) asignada por el modelo a cada cliente o contrato. Se utiliza para estimar la probabilidad de que un prestatario falle en cumplir con sus obligaciones de pago en un plazo determinado, generalmente 1 año. El valor de la «PD» varía entre 0 y 1, donde 0 indicaría que es imposible que un prestatario incumpla sus obligaciones y 1 señala que el incumplimiento es seguro.
El PSI cuantifica la variabilidad entre las distribuciones de distintas subpoblaciones o grupos; así que hemos dividido la variable «PD» en 10 rangos iguales, creando así 10 categorías. Analizaremos cómo se distribuyen los clientes actuales en estos deciles en comparación con cómo se distribuyeron cuando el modelo fue desarrollado. Este análisis nos permitirá entender si la probabilidad de incumplimiento estimada ha permanecido consistente o si ha habido desviaciones que necesiten ser investigadas.
PD | Recuento Base | Recuento Actual | Proporción Base | Proporción Actual | PSI | RAG |
---|---|---|---|---|---|---|
1 | 7.876 | 10.608 | 0,1000 | 0,1696 | 0,0367758372 | |
2 | 7.876 | 7.325 | 0,1000 | 0,1171 | 0,0027047087 | |
3 | 7.876 | 6.178 | 0,1000 | 0,0988 | 0,0000150135 | |
4 | 7.876 | 5.443 | 0,1000 | 0,0870 | 0,0018026982 | |
5 | 7.876 | 4.636 | 0,1000 | 0,0741 | 0,0077481907 | |
6 | 7.876 | 4.556 | 0,1000 | 0,0728 | 0,0086038844 | |
7 | 7.876 | 4.905 | 0,1000 | 0,0784 | 0,0052434262 | |
8 | 7.876 | 5.252 | 0,1000 | 0,0840 | 0,0027995568 | |
9 | 7.877 | 6.985 | 0,1000 | 0,1117 | 0,0012876717 | |
10 | 7.875 | 6.656 | 0,1000 | 0,1064 | 0,0004012133 | |
Total | 78.760 | 62.544 | 1,0000 | 1,0000 | 0,0673822005 | G |
El cálculo de la primera fila es:
\text{PSI} = \sum_{i=1}^{1} \left( \frac{7.876}{78.760} - \frac{10.608}{62.544} \right) \times \left( \ln \left(\frac{7.876}{78.760} \right) - \ln \left(\frac{10.608}{62.544} \right)\right)
= \sum_{i=1}^{1} (0,1 - 0,1696) \times (\ln (0,1) - \ln (0,1696)) = 0,03677
El PSI de la variable «PD» es:
\text{PSI} = 0,03677 + 0,00270 + ... + 0,00128 + 0,00040 = 0,06738
Al evaluar la variable continua «PD», que representa la probabilidad de incumplimiento y está dividida en 10 rangos iguales, hemos obtenido un PSI de 0,06738. Este resultado se compone de pequeñas contribuciones en cada uno de los deciles, siendo la mayor en el primer rango.
Un PSI total de aproximadamente 0,067 indica que no ha habido cambios sustanciales en la distribución de la probabilidad de incumplimiento desde que se desarrolló el modelo. Un valor de PSI inferior a 0,1 generalmente se considera como indicativo de estabilidad, lo que sugiere que el modelo predictivo actual sigue siendo adecuado y no se necesitarían acciones inmediatas en términos de recalibración o desarrollo de un nuevo modelo basándonos exclusivamente en esta variable.
Por lo tanto, en base a la variable «PD», podemos concluir que el modelo predictivo mantiene su capacidad para estimar la probabilidad de incumplimiento de forma consistente con cómo fue diseñado originalmente. Esto implica que, al menos en lo que respecta a esta métrica específica, el modelo sigue siendo robusto y no muestra signos de degradación significativa que justifiquen una intervención urgente.
Conclusión
Tras evaluar las variables «Motor de decisión» y «PD» con el Índice de Estabilidad de la Población (PSI), hemos llegado a conclusiones distintas para cada una. Para «Motor de decisión», un PSI de 0,77 sugiere que ha habido cambios significativos en la distribución desde la creación del modelo, lo que podría señalar la necesidad de una actualización o revisión más detallada. Por otro lado, un PSI de 0,067 para «PD» indica una estabilidad en la distribución de la probabilidad de incumplimiento , lo que implica que esta variable no ha experimentado cambios que afecten la fiabilidad del modelo.
En términos generales, la combinación de estos resultados señala que, mientras la variable «PD» se mantiene estable y el modelo predictivo es todavía confiable en este aspecto, la variable «Motor de decisión» muestra un cambio considerable, especialmente destacado por la aparición de la categoría «3.Joven» en la base actual, la cual no existía en los datos de desarrollo. Este cambio sustancial, evidenciado por un PSI elevado para esta categoría, sugiere una dinámica de mercado emergente o un cambio en la demografía de los clientes que no se refleja en el modelo original.
Por lo tanto, se recomienda una revisión exhaustiva del modelo, considerando particularmente las implicaciones de la inclusión de la nueva categoría «3.Joven», para garantizar que el modelo sigue siendo relevante y refleja las condiciones actuales del mercado y comportamiento del cliente.
Bibliografía
Implementación en SAS del Population Stability Index (PSI)
STATISTICAL PROPERTIES OF POPULATION STABILITY INDEX by Bilal Yurdakul
4 comentarios
https://www.instagram.com/asiapsiholog_family/
I as well as my friends were found to be examining the excellent tips and hints on the blog and so immediately came up with an awful suspicion I never expressed respect to the web site owner for those techniques. Those men had been as a consequence passionate to read through them and have now really been taking pleasure in them. Appreciation for genuinely simply accommodating and for going for certain amazing ideas millions of individuals are really desirous to understand about. Our sincere apologies for not saying thanks to sooner.
muy buen contenido