PSI (Population Stability Index)

Introducción

El Índice de Estabilidad de la Población (PSI) es una herramienta clave en el ámbito del monitoreo de modelos predictivos. Su propósito es cuantificar la variabilidad entre las distribuciones de distintas subpoblaciones o grupos con dos conjuntos de datos: uno actual y otro de referencia.

Se establece una norma práctica para su interpretación: un PSI por debajo del 10% sugiere que el modelo sigue siendo estable y adecuado para su aplicación. Un valor de PSI entre el 10% y el 25% es una señal de alerta, indicando posibles variaciones que merecen una inspección detallada para discernir las causas subyacentes de tal desviación. Un PSI superior al 25% generalmente es una indicación fuerte para considerar la recalibración del modelo o la construcción de uno nuevo con base en datos más recientes.

Aunque solemos fijarnos en el PSI para los puntajes de crédito y riesgo, es tan versátil que se puede aplicar a cualquier variable que se presente, ya sea continua o categórica.

Notación y cálculo teórico del PSI

El PSI es un indicador que evalúa la consistencia en la distribución de datos a través del tiempo. La fórmula para calcular el PSI cuantifica las variaciones entre las proporciones de los datos en el periodo base y el periodo actual, y se calcula de la siguiente manera:

\text{PSI}(Y_b, Y; B) = \sum_{i=1}^{B} (y_{bi} - y_i) (\ln(y_{bi}) - \ln(y_i))
= \sum_{i=1}^{B} (y_{bi} - y_i) \ln\left(\frac{y_{bi}}{y_i}\right)

Las proporciones y_1,...,y_B son las proporciones de la variable de análisis en el período actual, que caen en la categoría i-ésima y y_{b1}, \ldots, y_{bB} son las proporciones de la variable en el período base o de referencia que caen en la categoría i-ésima donde b representa la base de desarrollo del modelo y B representa el número de categorías.

Para simplificar la fórmula anterior, introduciremos una definición formal del PSI basada en recuentos y tamaños de muestra:

\text{PSI} = \sum_{i=1}^{B} \left( \frac{n_i}{N} - \frac{m_i}{M} \right) \times \left( \ln \frac{n_i}{N} - \ln \frac{m_i}{M} \right)
= \sum_{i=1}^{B} (\hat{p}_i - \hat{q}_i) \times (\ln \hat{p}_i - \ln \hat{q}_i)

donde n_i y m_i son las frecuencias en la categoría i-ésima, \sum n_i = N, \sum m_i = M, \hat{p}_i = \frac{n_i}{N}, \hat{q}_i = \frac{m_i}{M}.

Proporciones nulas

Como observaron Yurdakul y Naranjo (2018), el PSI tiene una deficiencia cuando se trata de proporciones cero, ya sea en las proporciones de referencia o actuales. Para estos casos, se realiza una corrección manual que asigna una observación al grupo con proporción cero para evitar distorsiones del PSI. Esto es,

\hat{p}_i = \frac{n_i}{N} si n_i > 0 y \hat{p}_i = \frac{1}{N} si n_i = 0
\hat{q}_i = \frac{m_i}{M} si m_i > 0 y \hat{q}_i = \frac{1}{M} si m_i = 0

Porque si tuviéramos n_i = 0 y reemplazamos en el caso general, tendríamos \hat{p}_i = \frac{n_i}{N} = \frac{0}{N} = 0, esto nos dejaría con \ln \hat{p}_i = \ln(0) que no está definido.

Por lo tanto, el PSI siempre debe calcularse teniendo en cuenta el caso de las proporciones nulas.

Interpretación de resultados

En la interpretación de resultados una de las métricas más utilizadas es el «RAG» , que se refiere a los colores Rojo, Amarillo y Verde (Red, Amber, Green). Estos colores se utilizan para proporcionar una rápida visualización del estado o desempeño de ciertos indicadores.

Es un sistema de codificación por colores utilizado para indicar el estado o el rendimiento de algo, comúnmente empleado en la gestión de proyectos, seguimiento de desempeño, y otras áreas de evaluación y control.

  • Rojo (Red): Indica problemas serios, una situación que requiere atención inmediata o que está fuera de los límites aceptables.
  • Ámbar (Amber): Señala advertencia o preocupación, implicando que algo no está funcionando como se esperaba pero aún no es crítico.
  • Verde (Green): Muestra que todo está funcionando bien, dentro de los parámetros o expectativas normales.
UmbralesInterpretaciónRAG
\text{PSI} > 0,25La distribución presenta cambios significativosR
0,1 < \text{PSI} \leq 0,25La distribución presenta pequeños cambiosA
\text{PSI} \leq 0,1La distribución no presenta cambios significativosG
Tabla 1.1: Métrica de evaluación PSI RAG

Ejemplo Práctico

Imagina que te han contratado en una entidad financiera para realizar un chequeo de salud del modelo predictivo que usan para evaluar el riesgo de impago de sus clientes. La entidad está interesada en saber si el modelo todavía es fiable o si ha llegado el momento de actualizarlo con nueva información o, incluso, diseñar uno nuevo. Hay dos variables que les preocupan especialmente: «Motor de decisión» y «PD». La razón es que estas variables son clave en la toma de decisiones y, por tanto, es crucial que sus distribuciones no hayan variado significativamente desde que se desarrolló el modelo.

¡Comencemos!

Variable categórica: Motor de decisión

Ahora, concentremos nuestra atención en la variable «Motor de decisión». Esta variable categoriza las decisiones de préstamo en cinco tipos:

  1. Resto
  2. Empresa
  3. Préstamo Joven (menores de 30 años)
  4. Préstamo a Empleados
  5. Préstamo Preconcedido

Nuestro objetivo es verificar si la proporción de decisiones en cada categoría se ha mantenido estable desde que el modelo se puso en marcha o si ha habido cambios significativos que podrían afectar la precisión del modelo.

Por un lado, nos han facilitado la base de datos con la que se desarrolló el modelo predictivo, que cuenta con 78.760 observaciones, a partir de ahora nos referiremos a ella como base o referencia. Por otro lado, nos han proporcionado la base de datos de validación, también conocida como Oot (Out of time), que cuenta con 62.544 observaciones, a partir de ahora la llamaremos actual.

A continuación, examinaremos las frecuencias actuales y las compararemos con las frecuencias históricas para determinar si hay diferencias notables.

Motor de decisiónRecuento BaseRecuento ActualProporción BaseProporción ActualPSIRAG
1.Resto56.94344.5910,72300,71300,0001403947
2.Empresa10.6161.9100,13480,03050,1547835756
3.Joven03.9090,00000,06250,5312402954
4.Empleado6.2673.0290,07960,04840,0154624215
5.Preconcedido4.9349.1050,06260,14560,0699285575
Total78.76062.5441,00001,00000,7715552447R
Tabla 2.1: PSI de la variable «Motor de decisión»

El cálculo de la primera fila es:

\text{PSI} = \sum_{i=1}^{1} \left( \frac{56.943}{78.760} - \frac{44.591}{62.544} \right) \times \left( \ln \left(\frac{56.943}{78.760} \right) - \ln \left(\frac{44.591}{62.544}  \right)\right)
= \sum_{i=1}^{1} (0,7230 - 0,7130) \times (\ln (0,7230) - \ln (0,7130)) = 0,00014

El cálculo de la tercera fila es:

Como se tiene que n_3 = 0 debemos realizar la corrección de las proporciones nulas, por lo que asignamos una observación al tercer grupo, n_3 = 1.

\text{PSI} = \sum_{i=3}^{3} \left( \frac{1}{78.760} - \frac{3.909}{62.544} \right) \times \left( \ln \left(\frac{1}{78.760} \right) - \ln \left(\frac{3.909}{62.544}  \right)\right)
= \sum_{i=3}^{3} (0,00001 - 0,0625) \times (\ln (0,00001) - \ln (0,0625)) = 0,53124

El PSI de la variable «Motor de decisión» es:

\text{PSI} = 0,00014 + 0,15478 + 0,53124 + 0,01546 + 0,06992 = 0,77155

Tras analizar la variable categórica «Motor de decisión» con las categorías proporcionadas y calcular el Índice de Estabilidad de la Población (PSI), hemos llegado a un valor de 0,77155. Este resultado se desglosa de la siguiente manera: una contribución mínima de la categoría «1.Resto», una significativa de «2.Empresa», la más elevada de «3.Joven», y aportaciones menores de «4.Empleado» y «5.Preconcedido».

Un PSI de 0,77 sugiere cambios sustanciales en la distribución de esta variable desde la creación del modelo. Generalmente, un PSI por debajo o igual a 0,1 indica estabilidad, entre 0,1 y 0,25 sugiere un cambio moderado, y un valor superior a 0,25 puede indicar una variación significativa que podría requerir una recalibración del modelo o incluso el desarrollo de uno nuevo. Dado que nuestro valor excede ampliamente el umbral de 0,25 se recomienda que la entidad financiera realice una revisión exhaustiva del modelo y considere actualizarlo para reflejar los patrones actuales de decisión de préstamo.

Variable continua: PD

«PD» representa la probabilidad de incumplimiento (Probability of Default) asignada por el modelo a cada cliente o contrato. Se utiliza para estimar la probabilidad de que un prestatario falle en cumplir con sus obligaciones de pago en un plazo determinado, generalmente 1 año. El valor de la «PD» varía entre 0 y 1, donde 0 indicaría que es imposible que un prestatario incumpla sus obligaciones y 1 señala que el incumplimiento es seguro.

El PSI cuantifica la variabilidad entre las distribuciones de distintas subpoblaciones o grupos; así que hemos dividido la variable «PD» en 10 rangos iguales, creando así 10 categorías. Analizaremos cómo se distribuyen los clientes actuales en estos deciles en comparación con cómo se distribuyeron cuando el modelo fue desarrollado. Este análisis nos permitirá entender si la probabilidad de incumplimiento estimada ha permanecido consistente o si ha habido desviaciones que necesiten ser investigadas.

PDRecuento BaseRecuento ActualProporción BaseProporción ActualPSIRAG
17.87610.6080,10000,16960,0367758372
27.8767.3250,10000,11710,0027047087
37.8766.1780,10000,09880,0000150135
47.8765.4430,10000,08700,0018026982
57.8764.6360,10000,07410,0077481907
67.8764.5560,10000,07280,0086038844
77.8764.9050,10000,07840,0052434262
87.8765.2520,10000,08400,0027995568
97.8776.9850,10000,11170,0012876717
107.8756.6560,10000,10640,0004012133
Total78.76062.5441,00001,00000,0673822005G
Tabla 2.1: PSI de la variable «PD»

El cálculo de la primera fila es:

\text{PSI} = \sum_{i=1}^{1} \left( \frac{7.876}{78.760} - \frac{10.608}{62.544} \right) \times \left( \ln \left(\frac{7.876}{78.760} \right) - \ln \left(\frac{10.608}{62.544}  \right)\right)
= \sum_{i=1}^{1} (0,1 - 0,1696) \times (\ln (0,1) - \ln (0,1696)) = 0,03677

El PSI de la variable «PD» es:

\text{PSI} = 0,03677 + 0,00270 + ... + 0,00128 + 0,00040 = 0,06738

Al evaluar la variable continua «PD», que representa la probabilidad de incumplimiento y está dividida en 10 rangos iguales, hemos obtenido un PSI de 0,06738. Este resultado se compone de pequeñas contribuciones en cada uno de los deciles, siendo la mayor en el primer rango.

Un PSI total de aproximadamente 0,067 indica que no ha habido cambios sustanciales en la distribución de la probabilidad de incumplimiento desde que se desarrolló el modelo. Un valor de PSI inferior a 0,1 generalmente se considera como indicativo de estabilidad, lo que sugiere que el modelo predictivo actual sigue siendo adecuado y no se necesitarían acciones inmediatas en términos de recalibración o desarrollo de un nuevo modelo basándonos exclusivamente en esta variable.

Por lo tanto, en base a la variable «PD», podemos concluir que el modelo predictivo mantiene su capacidad para estimar la probabilidad de incumplimiento de forma consistente con cómo fue diseñado originalmente. Esto implica que, al menos en lo que respecta a esta métrica específica, el modelo sigue siendo robusto y no muestra signos de degradación significativa que justifiquen una intervención urgente.

Conclusión

Tras evaluar las variables «Motor de decisión» y «PD» con el Índice de Estabilidad de la Población (PSI), hemos llegado a conclusiones distintas para cada una. Para «Motor de decisión», un PSI de 0,77 sugiere que ha habido cambios significativos en la distribución desde la creación del modelo, lo que podría señalar la necesidad de una actualización o revisión más detallada. Por otro lado, un PSI de 0,067 para «PD» indica una estabilidad en la distribución de la probabilidad de incumplimiento , lo que implica que esta variable no ha experimentado cambios que afecten la fiabilidad del modelo.

En términos generales, la combinación de estos resultados señala que, mientras la variable «PD» se mantiene estable y el modelo predictivo es todavía confiable en este aspecto, la variable «Motor de decisión» muestra un cambio considerable, especialmente destacado por la aparición de la categoría «3.Joven» en la base actual, la cual no existía en los datos de desarrollo. Este cambio sustancial, evidenciado por un PSI elevado para esta categoría, sugiere una dinámica de mercado emergente o un cambio en la demografía de los clientes que no se refleja en el modelo original.

Por lo tanto, se recomienda una revisión exhaustiva del modelo, considerando particularmente las implicaciones de la inclusión de la nueva categoría «3.Joven», para garantizar que el modelo sigue siendo relevante y refleja las condiciones actuales del mercado y comportamiento del cliente.

Bibliografía

Implementación en SAS del Population Stability Index (PSI)

STATISTICAL PROPERTIES OF POPULATION STABILITY INDEX by Bilal Yurdakul

Tabla de contenidos
Compartir artículo

4 comentarios

  1. I as well as my friends were found to be examining the excellent tips and hints on the blog and so immediately came up with an awful suspicion I never expressed respect to the web site owner for those techniques. Those men had been as a consequence passionate to read through them and have now really been taking pleasure in them. Appreciation for genuinely simply accommodating and for going for certain amazing ideas millions of individuals are really desirous to understand about. Our sincere apologies for not saying thanks to sooner.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Información básica sobre protección de datos Ver más

  • Responsable: Jorge Carballo Álvarez.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento:  No se ceden o comunican datos a terceros para prestar este servicio. El Titular ha contratado los servicios de alojamiento web a Dreamhost que actúa como encargado de tratamiento.
  • Derechos: Acceder, rectificar y suprimir los datos.

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Contiene enlaces a sitios web de terceros con políticas de privacidad ajenas que podrás aceptar o no cuando accedas a ellos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos.
Privacidad