Regresión Múltiple - Modelo Interactivo

Prerrequisitos recomendados

Econometría

Siguiente en la ruta

Variables Instrumentales (2SLS)

Estimación consistente ante endogeneidad usando instrumentos exógenos

Continuar

Conceptos formales

Ver glosario completo

Consistencia del Estimador

Econometria

Un estimador $\hat{\theta}_n$ es consistente para $\theta_0$ si converge en probabilidad a $\theta_0$ cuando el tamanio de la muestra tiende a infinito: $\hat{\theta}_n \xrightarrow{p} \theta_0$. La consistencia es una propiedad asintotica fundamental distinta de la insesgadez en muestra finita. Un estimador puede ser sesgado en muestras finitas y aun asi ser consistente, siempre que el sesgo desaparezca conforme $n \to \infty$.

\hat{\theta}_n \xrightarrow{p} \theta_0 \iff \forall \varepsilon > 0, \; \lim_{n \to \infty} P(|\hat{\theta}_n - \theta_0| > \varepsilon) = 0

Eficiencia del Estimador

Econometria

Un estimador insesgado es eficiente dentro de una clase si tiene la menor varianza entre todos los estimadores de esa clase. En el marco del Teorema de Cramer-Rao, la cota inferior de la varianza de cualquier estimador insesgado es el inverso de la informacion de Fisher: $\text{Var}(\hat{\theta}) \geq [I(\theta)]^{-1}$. El estimador de maxima verosimilitud alcanza esta cota asintoticamente bajo condiciones de regularidad.

\text{Var}(\hat{\theta}) \geq \left[ -E\!\left(\frac{\partial^2 \ln L}{\partial \theta^2}\right) \right]^{-1} = [I(\theta)]^{-1}

Error Estandar

Econometria

Desviacion estandar de la distribucion muestral de un estimador; mide la precision con que el estimador aproxima el parametro poblacional. Para el estimador MCO en regresion multiple, el error estandar de $\hat{\beta}$ es la raiz cuadrada de los elementos diagonales de la matriz de varianza-covarianza $\sigma^2 (X'X)^{-1}$. En presencia de heteroscedasticidad o autocorrelacion, deben usarse errores estandar robustos (HC o HAC).

\text{SE}(\hat{\beta}_j) = \sqrt{\hat{\sigma}^2 [(X'X)^{-1}]_{jj}}

Heteroscedasticidad

Econometria

Violacion del supuesto MCO que establece que la varianza del termino de error es constante para todas las observaciones. Formalmente, $\text{Var}(u_i | x_i) = \sigma_i^2 \neq \sigma^2$. La heteroscedasticidad no genera sesgo en los coeficientes MCO, pero invalida los errores estandar clasicos y las pruebas de hipotesis asociadas. El remedio habitual es usar errores estandar robustos de White (HC) o estimar por MCG (GLS).

\text{Var}(u_i | x_i) = \sigma_i^2 \implies \text{Var}(\hat{\beta}_{OLS}) \neq \sigma^2 (X'X)^{-1}

Intervalo de Confianza

Econometria

Rango de valores construido a partir de la muestra tal que contiene el parametro poblacional con probabilidad $(1-\alpha)$ si el procedimiento se repitiera infinitas veces bajo el mismo diseno muestral. Para el coeficiente MCO con errores normales, el intervalo al $(1-\alpha)\%$ es $\hat{\beta}_j \pm t_{n-k,\alpha/2} \cdot \text{SE}(\hat{\beta}_j)$. La interpretacion frecuentista no asigna probabilidad al parametro en si, sino al procedimiento de construccion.

IC_{1-\alpha}(\beta_j) = \left[\hat{\beta}_j \pm t_{n-k,\,\alpha/2}\cdot \text{SE}(\hat{\beta}_j)\right]

Maxima Verosimilitud (MV)

Econometria

Principio de estimacion que elige el vector de parametros $\theta$ que maximiza la funcion de verosimilitud $L(\theta; y) = \prod_{i=1}^n f(y_i; \theta)$, o equivalentemente el log-likelihood $\ell(\theta) = \sum_{i=1}^n \ln f(y_i; \theta)$. Bajo condiciones de regularidad, el estimador MV es consistente, asintoticamente eficiente (alcanza la cota de Cramer-Rao) y asintoticamente normal. Es el metodo base para modelos con variables dependientes limitadas (logit, probit, Tobit).

\hat{\theta}_{MV} = \arg\max_{\theta} \ell(\theta) = \arg\max_{\theta} \sum_{i=1}^n \ln f(y_i; \theta)

Minimos Cuadrados Ordinarios (MCO)

Econometria

Metodo de estimacion que minimiza la suma de los residuos al cuadrado para obtener $\hat{\beta} = (X'X)^{-1}X'y$. Es el estimador lineal insesgado de menor varianza (BLUE) bajo los supuestos de Gauss-Markov. La formula analitica de MCO existe en forma cerrada siempre que $X'X$ sea invertible (rango completo de columnas). Su interpretacion geometrica es la proyeccion ortogonal del vector $y$ sobre el espacio columna de $X$.

\hat{\beta}_{OLS} = (X'X)^{-1}X'y, \quad \text{minimize} \sum_{i=1}^n \hat{u}_i^2

Multicolinealidad

Econometria

Situacion en la que dos o mas regresores del modelo estan altamente correlacionados entre si. La multicolinealidad perfecta hace $X'X$ singular e imposibilita la estimacion MCO. La multicolinealidad imperfecta no viola los supuestos de Gauss-Markov (MCO sigue siendo BLUE), pero infla los errores estandar, reduce la precision de las estimaciones y hace que los coeficientes sean muy sensibles a pequenias variaciones en la muestra. Se diagnostica con el Factor de Inflacion de la Varianza (FIV/VIF).

\text{VIF}_j = \frac{1}{1 - R_j^2} \quad \text{(donde } R_j^2 \text{ es el } R^2 \text{ de } x_j \text{ sobre los demas regresores)}

Coeficiente de Determinacion (R cuadrado)

Econometria

Proporcion de la varianza total de la variable dependiente que es explicada por los regresores del modelo. Toma valores en $[0,1]$: un $R^2 = 1$ indica ajuste perfecto; $R^2 = 0$ indica que el modelo no mejora a predecir con la media. El $R^2$ ajustado penaliza la inclusion de variables adicionales: $\bar{R}^2 = 1 - (1-R^2)(n-1)/(n-k-1)$. Un $R^2$ alto no implica causalidad ni ausencia de problemas de especificacion.

R^2 = 1 - \frac{\sum_i \hat{u}_i^2}{\sum_i (y_i - \bar{y})^2} = \frac{\text{SCE}}{\text{SCT}}

Regresion Lineal

Econometria

Modelo estadistico que aproxima la relacion entre una variable dependiente $y$ y uno o mas regresores $x$ mediante una funcion lineal en los parametros: $y = X\beta + u$. La linealidad se refiere a los parametros, no necesariamente a las variables (que pueden ser transformaciones no lineales de los datos originales). Es el punto de partida del analisis econometrico por su interpretabilidad, propiedades analiticas y fundamentos asintoticos bien establecidos.

y = \beta_0 + \beta_1 x_1 + \cdots + \beta_k x_k + u = X\beta + u

Regresion Multiple

Econometria

Extension del modelo de regresion lineal que incluye dos o mas regresores para explicar la variable dependiente. Permite controlar por variables de confusion ('ceteris paribus'), separar el efecto de cada regresor de los demas, y reducir el sesgo de variable omitida cuando las variables relevantes estan disponibles. El estimador MCO en forma matricial es $\hat{\beta} = (X'X)^{-1}X'y$, con $X$ la matriz de diseno de dimension $n \times (k+1)$.

y_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik} + u_i, \quad \hat{\beta} = (X'X)^{-1}X'y

Sesgo de Variable Omitida

Econometria

Sesgo en el estimador MCO que surge cuando se excluye del modelo una variable que esta correlacionada tanto con los regresores incluidos como con la variable dependiente. Si la variable omitida $q$ satisface $\text{Cov}(x, q) \neq 0$ y $\gamma \neq 0$, el estimador de $\beta_1$ absorbe parte del efecto de $q$: $\text{plim}(\hat{\beta}_1) = \beta_1 + \gamma \cdot \delta$, donde $\delta = \text{Cov}(x,q)/\text{Var}(x)$. Este sesgo es la principal motivacion para usar instrumentos y disenios de investigacion.

\text{plim}(\hat{\beta}_1) = \beta_1 + \gamma \cdot \frac{\text{Cov}(x, q)}{\text{Var}(x)}

Significancia Estadistica

Econometria

Un estimador es estadisticamente significativo al nivel $\alpha$ si se rechaza la hipotesis nula $H_0: \beta = 0$ con un estadistico de prueba que supera el valor critico correspondiente, equivalente a un valor-p menor que $\alpha$. La significancia estadistica no implica significancia economica: con muestras grandes, efectos triviales pueden resultar significativos. La interpretacion correcta requiere considerar tambien el tamanio del efecto y los intervalos de confianza.

t = \frac{\hat{\beta}_j}{\text{SE}(\hat{\beta}_j)} \sim t_{n-k-1} \quad \text{bajo } H_0: \beta_j = 0

Supuestos de Gauss-Markov

Econometria

Conjunto de supuestos sobre el modelo de regresion lineal bajo los cuales MCO es BLUE: (MLR.1) linealidad en parametros, (MLR.2) muestra aleatoria, (MLR.3) no colinealidad perfecta, (MLR.4) exogeneidad media $E[u|X]=0$, (MLR.5) homocedasticidad $\text{Var}(u|X)=\sigma^2$. Para la inferencia exacta se anade (MLR.6) normalidad de $u$. El supuesto MLR.4 es el mas critico: su violacion produce inconsistencia en MCO.

E[u|X] = 0 \;\text{(MLR.4)}, \quad \text{Var}(u|X) = \sigma^2 \;\text{(MLR.5)}

Teorema de Gauss-Markov

Econometria

Bajo los supuestos clasicos de regresion lineal (linealidad, exogeneidad estricta $E[u|X]=0$, homocedasticidad $\text{Var}(u|X)=\sigma^2 I$, y no multicolinealidad perfecta), el estimador MCO es el mejor estimador lineal insesgado (BLUE). 'Mejor' se refiere a que tiene la menor varianza dentro de la clase de estimadores lineales insesgados. No requiere normalidad de los errores para este resultado.

\hat{\beta}_{OLS} = (X'X)^{-1}X'y \text{ es BLUE si } E[u|X] = 0, \; \text{Var}(u|X) = \sigma^2 I

Prueba de Hipotesis

Econometria

Procedimiento estadistico para tomar una decision sobre si los datos son compatibles con una hipotesis nula $H_0$ sobre parametros poblacionales. Se construye un estadistico de prueba cuya distribucion bajo $H_0$ es conocida, y se rechaza $H_0$ si el estadistico cae en la region critica de tamano $\alpha$. Errores posibles: Tipo I (rechazar $H_0$ verdadera, probabilidad $\alpha$) y Tipo II (no rechazar $H_0$ falsa, probabilidad $\beta$). El poder de la prueba es $1-\beta$.

\text{Rechazar } H_0 \iff |t| > t_{\alpha/2, n-k} \iff p\text{-valor} < \alpha

Test de Wald

Econometria

Prueba de hipotesis general que contrasta restricciones lineales o no lineales sobre los parametros del modelo a partir del estimador no restringido. El estadistico se basa en la distancia entre $\hat{\theta}$ y el valor impuesto bajo $H_0$, ponderada por la varianza estimada: $W = (R\hat{\theta} - r)'[R\hat{V}R']^{-1}(R\hat{\theta} - r) \sim \chi^2_q$. Es uno de los tres principios clasicos de prueba junto con el test LR y el test LM (score). Solo requiere estimar el modelo no restringido.

W = (R\hat{\theta} - r)'[R\hat{V}R']^{-1}(R\hat{\theta} - r) \xrightarrow{d} \chi^2_q

Test F

Econometria

Prueba de significancia conjunta que contrasta si un conjunto de $q$ restricciones lineales sobre los coeficientes son simultaneamente cero: $H_0: R\beta = r$. El estadistico $F = (\text{SCR}_R - \text{SCR}_{NR})/(q \cdot \hat{\sigma}^2)$ sigue una distribucion $F_{q, n-k-1}$ bajo $H_0$ con errores normales, y $W/q \sim F_{q,\infty}$ asintoticamente. La prueba $F$ de significancia global contrasta si todos los coeficientes distintos del intercepto son conjuntamente cero.

F = \frac{(\text{SCR}_R - \text{SCR}_{NR})/q}{\text{SCR}_{NR}/(n-k-1)} \sim F_{q,\,n-k-1}

Test de Multiplicadores de Lagrange (LM / Score)

Econometria

Prueba de hipotesis que contrasta restricciones sobre los parametros a partir del modelo restringido unicamente. El estadistico se basa en el vector score $\nabla_\theta \ell(\hat{\theta}_R)$ evaluado en el estimador restringido: si $H_0$ es verdadera, el gradiente del log-likelihood debe ser cercano a cero en $\hat{\theta}_R$. Su ventaja es que no requiere estimar el modelo no restringido, lo que lo hace conveniente cuando el modelo irrestricto es computacionalmente costoso.

LM = \frac{1}{n}\left[\frac{\partial \ell(\hat{\theta}_R)}{\partial \theta}\right]' \left[-\frac{1}{n}\frac{\partial^2 \ell(\hat{\theta}_R)}{\partial \theta \partial \theta'}\right]^{-1} \frac{\partial \ell(\hat{\theta}_R)}{\partial \theta} \xrightarrow{d} \chi^2_q

Test de Razon de Verosimilitud (LR)

Econometria

Prueba de hipotesis que compara el valor del log-likelihood del modelo no restringido con el del modelo restringido bajo $H_0$. Mide si la imposicion de las restricciones reduce significativamente el ajuste. El estadistico $LR = -2[\ell(\hat{\theta}_R) - \ell(\hat{\theta}_{NR})]$ converge en distribucion a $\chi^2_q$ bajo $H_0$, donde $q$ es el numero de restricciones. Forma parte del trio clasico de pruebas junto con el test de Wald y el test LM.

LR = -2[\ell(\hat{\theta}_R) - \ell(\hat{\theta}_{NR})] \xrightarrow{d} \chi^2_q

Valor-p (p-valor)

Econometria

Probabilidad de obtener un estadistico de prueba igual o mas extremo que el observado, dado que la hipotesis nula es verdadera. Un valor-p pequenio (tipicamente menor que 0.05 o 0.01) proporciona evidencia en contra de $H_0$. El valor-p no mide la probabilidad de que $H_0$ sea verdadera, ni la magnitud del efecto; su mal uso e interpretacion mecanica son fuente de reproducibilidad deficiente en ciencias empiricas (see: Wasserstein & Lazar, 2016).

p = P(|T| \geq |t_{obs}| \mid H_0) = 2\,P(T \geq |t_{obs}|) \quad \text{(prueba bilateral)}

Autocorrelacion (Correlacion Serial)

Econometria

Situacion en la que los terminos de error de diferentes observaciones (usualmente periodos de tiempo) estan correlacionados entre si: $\text{Cov}(u_t, u_s) \neq 0$ para $t \neq s$. La autocorrelacion no produce sesgo en los coeficientes MCO, pero los errores estandar clasicos son invalidos (subestiman la verdadera varianza bajo autocorrelacion positiva). Los correctivos incluyen errores estandar HAC (Newey-West) o modelar explicitamente la estructura de autocorrelacion (AR, MA).

\rho_h = \text{Corr}(u_t, u_{t-h}) = \frac{\text{Cov}(u_t, u_{t-h})}{\text{Var}(u_t)}, \quad \rho_h \neq 0 \text{ implica violacion MCO}

Pregunta Central

¿Cómo aislar el efecto parcial de cada variable controlando por las demás?

🕸️ Mapa de Conexiones

📚 Ruta de Aprendizaje

Econometría

Reg. Múltiple

Sugerimos estudiar estos modelos en orden para una comprensión completa.

🔗 Modelos Relacionados

Econometría BásicaExtiende

La regresión múltiple extiende la simple al incluir múltiples variables

Variables Instrumentales (2SLS)Extiende

IV resuelve la endogeneidad que OLS múltiple no puede manejar

Diferencias en Diferencias (DiD)Extiende

DiD se implementa como una regresión con interacción Post×Treat

Regresión Discontinua (RDD)Extiende

RDD usa regresiones locales a cada lado del cutoff

Datos de PanelExtiende

Los datos de panel extienden la regresión al incluir dimensión temporal

Regresión Lineal Simple InteractivaExtiende

La regresión simple es el caso base que se generaliza con múltiples variables

Causalidad Econométrica (DAGs)Se basa en

Entender la regresión es necesario para comprender las estrategias de identificación causal

Matrices y Sistemasmath-foundation

OLS múltiple usa álgebra matricial: beta = (X'X)^{-1}X'y

💡 Conceptos Clave

📐Regresión

Método estadístico para estimar la relación entre variables dependientes e independientes

También en:

Econometría IV/2SLS DiD

🔍Inferencia

Proceso de sacar conclusiones sobre una población a partir de una muestra de datos

También en:

Econometría Descriptiva IV/2SLS

📐 Ecuaciones Fundamentales

Modelo

Notación matricial

y = X\beta + \varepsilon

Estimador OLS

Solución por mínimos cuadrados

\hat{\beta} = (X'X)^{-1}X'y

VIF

Factor de inflación de varianza

VIF_j = \frac{1}{1 - R_j^2}

Estadístico F

Significancia conjunta

F = \frac{R^2/k}{(1-R^2)/(n-k-1)}

✅ Aplicaciones

•Ecuación de Mincer (retornos a la educación)
•Funciones de producción Cobb-Douglas
•Modelos de determinación salarial

⚠️ Limitaciones

•Sesgo de variable omitida si faltan regresores relevantes
•Multicolinealidad infla errores estándar
•No resuelve endogeneidad

Sobre la Regresion Multiple

La regresion multiple extiende el modelo de regresion simple al incluir multiples variables explicativas. Esto permite controlar por factores confundentes y aislar el efecto parcial de cada variable sobre la dependiente.

Ventajas sobre Regresion Simple

Al incluir multiples variables, reducimos el sesgo de variable omitida y mejoramos la precision de las estimaciones.

- Controla por variables confundentes
- Estima efectos parciales (ceteris paribus)
- Mayor poder explicativo (R² mas alto)
- Permite test F de significancia conjunta

Multicolinealidad

Cuando las variables explicativas estan altamente correlacionadas, los estimadores son imprecisos aunque siguen siendo insesgados.

- VIF > 5: multicolinealidad moderada
- VIF > 10: multicolinealidad severa
- Errores estandar inflados
- Coeficientes inestables ante cambios en la muestra

Formulas Clave

Estimador OLS (Forma Matricial)

β̂ = (X'X)⁻¹X'y

R² Ajustado

R²ₐ = 1 - (1-R²)(n-1)/(n-k-1)

Estadistico F

F = (SSE/k) / (SSR/(n-k-1))

Factor de Inflacion de Varianza

VIFⱼ = 1/(1-Rⱼ²)

Aplicaciones Clasicas

Ecuacion de Mincer: ln(salario) = β₀ + β₁·educacion + β₂·experiencia + ε
Funcion de produccion: ln(Y) = β₀ + β₁·ln(L) + β₂·ln(K) + ε (Cobb-Douglas)
Funcion de consumo: C = β₀ + β₁·Y + β₂·W + ε (ingreso y riqueza)

Variables Instrumentales (2SLS)

Conceptos formales

Consistencia del Estimador

Eficiencia del Estimador

Error Estandar

Heteroscedasticidad

Intervalo de Confianza

Maxima Verosimilitud (MV)

Minimos Cuadrados Ordinarios (MCO)

Multicolinealidad

Coeficiente de Determinacion (R cuadrado)

Regresion Lineal

Regresion Multiple

Sesgo de Variable Omitida

Significancia Estadistica

Supuestos de Gauss-Markov

Teorema de Gauss-Markov

Prueba de Hipotesis

Test de Wald

Test F

Test de Multiplicadores de Lagrange (LM / Score)

Test de Razon de Verosimilitud (LR)

Valor-p (p-valor)

Autocorrelacion (Correlacion Serial)

Pregunta Central

🕸️ Mapa de Conexiones

📚 Ruta de Aprendizaje

🔗 Modelos Relacionados

💡 Conceptos Clave

📐 Ecuaciones Fundamentales

✅ Aplicaciones

⚠️ Limitaciones

Sobre la Regresion Multiple

Ventajas sobre Regresion Simple

Multicolinealidad

Formulas Clave

Estimador OLS (Forma Matricial)

R² Ajustado

Estadistico F

Factor de Inflacion de Varianza

Aplicaciones Clasicas

Conceptos Relacionados

Regresion Simple

Variables Instrumentales

Datos de Panel