Concepto
El coeficiente de determinación es una medida estadística de la bondad del ajuste o fiabilidad del modelo estimado a los datos. Se representa por R2 e indica cuál es la proporción de la variación total en la variable dependiente (Y), que es explicada por el modelo de regresión estimado, es decir, mide la capacidad explicativa del modelo estimado.
Cálculo del coeficiente de determinación
En un modelo de regresión lineal el coeficiente de determinación es adimensional y se calcula del siguiente modo:
Donde la suma total es la varianza muestral de la variable endógena multiplicada por el tamaño de la muestra; por lo tanto, mide las fluctuaciones de esta variable alrededor de su media; y, la suma residual indica cuál es el nivel de error que se comete con el modelo estimado al explicar la variable endógena.
El coeficiente de determinación siempre va a ser menor o igual que 1 (sería igual a 1 si el modelo estimado puede explicar completamente la variable dependiente sin ningún error, lo cual es muy improbable en la práctica) y si, además, el modelo tiene término independiente, entonces el R2 es mayor o igual que cero.
Si el modelo tiene término independiente, existen diferentes expresiones que permiten el cálculo del R2, tales como:
donde, la suma explicada es el grado de fluctuación de la variable dependiente que el modelo de regresión estimado es capaz de explicar; es el vector de parámetros estimados del modelo, X es la matriz de observaciones de las variables explicativas del modelo, y es el vector de observaciones de la variable dependiente, T es el número de observaciones de las variables del modelo, e es el cuadrado de la media de la variable dependiente.
El R2 también se puede calcular como el cuadrado del coeficiente de correlación entre y (variable dependiente) e (variable dependiente estimada a través del modelo de regresión).
Utilidad del coeficiente de determinación
El coeficiente de determinación no solo mide la capacidad explicativa de un modelo sino que, además, permite elegir entre varios modelos cuál es el más adecuado. Así si los modelos tienen la misma variable dependiente y el mismo número de variables explicativas, será más adecuado el que tenga un coeficiente de determinación mayor.
Sin embargo, si se trabaja con modelos anidados (uno tiene el mismo número de variables explicativas que otro y alguna más), entonces el coeficiente de determinación ya no es adecuado para establecer cuál de los modelos es el mejor para explicar la variable dependiente. Esto es debido a que al aumentar el número de variables explicativas entonces la suma residual disminuye y, por lo tanto, será necesario trabajar con una medida que tenga en cuenta el número de variables explicativas del modelo, este coeficiente se conoce como el coeficiente de determinación corregido y se calcula de la siguiente forma:
donde, el coeficiente de determinación no solo está corregido por el tamaño de la muestra (ya que si el número de datos aumenta, el coeficiente disminuye) sino, también por el número de variables explicativas. De esta forma se mantendría neutral frente a la introducción de nuevas variables explicativas ya que si aumentan las variables explicativas aumentaría el R2 y por lo tanto (1 - R2) disminuye, compensando el efecto del aumento de la fracción cuando aumenta el número de variables explicativas.
Es importante resaltar que tanto el R2 como el dependen de la muestra seleccionada y, por lo tanto, a la hora de decidir si el modelo es adecuado o no para explicar la variable dependiente, no debería tenerse en cuenta solo la información proporcionada por estos coeficientes.
Recuerde que...
- • No solo mide la capacidad explicativa de un modelo sino que, además, permite elegir entre varios modelos cuál es el más adecuado.
- • Si los modelos tienen la misma variable dependiente y el mismo número de variables explicativas, será más adecuado el que tenga un coeficiente de determinación mayor.