3Más Allá de la Regresión Lineal – El Método de Máxima Verosimilitud
3.1 Introducción y Visión General
El modelo de regresión lineal presentado anteriormente asume que la varianza es constante, y frecuentemente que los errores se distribuyen de forma normal.
Sin embargo, existen muchos tipos de datos para los cuales la aleatoriedad no es constante, lo que hace que el método de mínimos cuadrados no sea apropiado.
En estos casos, se requiere el uso de la estimación de máxima verosimilitud para ajustar el modelo.
3.2 La Necesidad de Modelos de Regresión No Normales
Anteriormente se introdujo el modelo de regresión lineal, que asume que la varianza es constante (homocedasticidad) y, a menudo, que los errores siguen una distribución normal. Sin embargo, existen muchos tipos de datos en los que la variabilidad no es constante, por lo que el método de mínimos cuadrados no es adecuado. En estos casos es preferible usar la estimación de máxima verosimilitud para ajustar el modelo.
3.3 Cuando los Modelos Lineales Son una Mala Elección
El componente aleatorio de los modelos de regresión en capítulos anteriores asume varianza constante y normalidad.
Existen tres situaciones comunes en las que la variación no es constante y, por ello, los modelos lineales no son adecuados:
Proporciones:
La respuesta es una proporción (entre 0 y 1) de un total de conteos.
A medida que la proporción se acerca a 0 o 1, la varianza debe acercarse a 0, siendo menor en los extremos que en valores cercanos a 0.5.
Además, al estar acotada, la respuesta no puede ser modelada con una distribución normal.
Ejemplo: Datos binarios, donde la respuesta es 0 o 1.
Conteos:
La respuesta es un conteo.
A medida que el conteo se acerca a 0, la varianza también se reduce.
Los conteos son discretos y no negativos, por lo que la normalidad es inapropiada.
Se suele usar la distribución de Poisson (o la binomial negativa en caso de sobredispersión).
Datos Continuos Positivos:
La respuesta es continua y estrictamente positiva.
Cerca de 0, la varianza es menor; además, estos datos suelen presentar asimetría positiva (right-skewed).
La normalidad es inadecuada ya que la distribución normal permite valores negativos.
Se pueden usar distribuciones como la gamma o la inversa gaussiana.
En todas estas situaciones, la relación entre \(y\) y las variables explicativas suele ser no lineal, ya que \(y\) está acotado.
3.3.1 Resultados Binarios y Conteos Binomiales
Cuando la respuesta es binaria (por ejemplo, éxito/fallo), no tiene sentido transformar la variable para lograr normalidad, ya que sólo puede tomar dos valores.
En el caso de que se tabulen múltiples resultados binarios para formar una variable binomial, se puede modelar la proporción \(y\) de éxitos de un total de \(m\).
Por ejemplo, se puede utilizar un modelo de la forma: \[
\log \frac{\mu}{1-\mu} = \beta_0 + \beta_1 x,
\] donde \(\mu\) es la probabilidad de éxito y la transformación logit extiende la escala a toda la recta real.
Ejemplo: El estudio de pilotos militares que evalúa si la resistencia al desmayo disminuye con la edad (datos de gforces).
3.3.2 Conteos Sin Restricción: Modelos de Poisson o Binomial Negativa
Cuando la respuesta es un conteo (número de eventos), la varianza no es constante y además los datos son discretos.
Un modelo de regresión lineal normal no es adecuado.
Se puede modelar la respuesta con una distribución de Poisson, usando un modelo de la forma: \[
\begin{cases}
y \sim \operatorname{Pois}(\mu) & \text{(componente aleatoria)} \\
\log \mu = \beta_0 + \beta_1 x & \text{(componente sistemática)}
\end{cases} \tag{4.2}
\]
Ejemplo: El estudio de hábitats de un pájaro agresivo (noisy miner nminer), donde se cuenta el número de pájaros en relación al número de eucaliptos.
3.3.3 Observaciones Continuas Positivas
Cuando la respuesta es continua y positiva (por ejemplo, tiempos de entrega), es común que la varianza aumente con la media.
Una transformación logarítmica puede estabilizar la varianza, pero a menudo transforma la relación lineal en algo no lineal.
En estos casos, el modelo de regresión lineal normal no es capaz de satisfacer ambos objetivos (linealidad y varianza constante).
Es preferible usar un modelo de regresión que ajuste la distribución apropiada para números positivos, como la distribución gamma o la inversa gaussiana.
Un posible modelo es: \[
\begin{cases}
y \sim \operatorname{Gamma}(\mu; \phi) & \text{(componente aleatoria)} \\
\mu = \beta_0 + \beta_1 x & \text{(componente sistemática)}
\end{cases} \tag{4.3}
\] donde \(\phi\) está relacionado con la varianza de la distribución gamma.
Ejemplo: Un estudio de un embotellador de bebidas que analiza el tiempo de servicio de las máquinas expendedoras en función del número de cajas de producto y la distancia recorrida (sdrink).
3.4 La Idea de la Estimación de Máxima Verosimilitud
Anteriormente se desarrolló el principio de los mínimos cuadrados como criterio para estimar los parámetros en el predictor lineal de los modelos de regresión lineal. Este método es adecuado cuando los datos de respuesta se distribuyen aproximadamente de forma normal. Sin embargo, en situaciones en las que los datos no son normales (por ejemplo, modelos basados en distribuciones binomial, Poisson o gamma), se requiere una metodología de estimación más general: la estimación de máxima verosimilitud.
3.4.1 Concepto General
La máxima verosimilitud consiste en elegir los estimadores de los parámetros desconocidos que maximizan la función de verosimilitud, es decir, la función de densidad o probabilidad de los datos observados, considerada como función de los parámetros. Esta metodología incluye los mínimos cuadrados como un caso especial (cuando los errores son normales).
3.4.2 Ejemplo con la Distribución Exponencial
Supongamos que \(y_1,\dots,y_n\) son observaciones independientes de una distribución exponencial con parámetro de escala \(\theta\). La función de densidad de la distribución exponencial es: \[
\mathcal{P}(y;\theta)=\theta\exp(-\theta y).
\]
La función de verosimilitud conjunta para los \(n\) datos es: \[
\mathcal{L}(\theta;y)=\prod_{i=1}^{n}\mathcal{P}(y_i;\theta)=\theta^n\exp\Big(-\theta\sum_{i=1}^{n}y_i\Big)=\theta^n\exp(-n\bar{y}\theta),
\] donde \(\bar{y}\) es la media aritmética de los \(y_i\).
El principio de máxima verosimilitud consiste en elegir el valor \(\hat{\theta}\) que maximice \(\mathcal{L}(\theta;y)\). Es fácil demostrar que en este caso la función se maximiza cuando: \[
\hat{\theta}=\frac{1}{\bar{y}}.
\]
3.4.3 La Función Log-Verosimilitud
En la práctica es más conveniente trabajar con la función logarítmica de la verosimilitud, ya que la transformación logarítmica convierte productos en sumas: \[
\ell(\theta;y)=\log \mathcal{L}(\theta;y)=\sum_{i=1}^{n}\log \mathcal{P}(y_i;\theta).
\] Para el ejemplo exponencial, el log-verosimilitud es: \[
\ell(\theta;y)=n(\log \theta-\bar{y}\theta).
\] Maximizar \(\ell(\theta;y)\) es equivalente a maximizar \(\mathcal{L}(\theta;y)\).
3.4.4 Relación con los Mínimos Cuadrados
Se puede demostrar que los mínimos cuadrados son un caso especial de la máxima verosimilitud. Por ejemplo, considere un modelo de regresión normal: \[
y_i\sim N(\mu_i,\sigma^2),\quad \mu_i=\beta_0+\beta_1 x_{1i}+\cdots+\beta_p x_{pi}.
\] La función de densidad para \(y_i\) es: \[
\mathcal{P}(y_i;\mu_i,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Biggl\{-\frac{(y_i-\mu_i)^2}{2\sigma^2}\Biggr\}.
\] El logaritmo de esta función es: \[
\log \mathcal{P}(y_i;\mu_i,\sigma^2)=-\frac{1}{2}\log(2\pi\sigma^2)-\frac{(y_i-\mu_i)^2}{2\sigma^2}.
\] Así, la log-verosimilitud para los \(n\) datos es: \[
\ell\bigl(\beta_0,\dots,\beta_p,\sigma^2;y\bigr)
=-\frac{n}{2}\log(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{n}(y_i-\mu_i)^2,
\] donde el término \(\sum_{i=1}^{n}(y_i-\mu_i)^2\) es la suma de cuadrados (RSS). Para un valor fijo de \(\sigma^2\), maximizar la log-verosimilitud equivale a minimizar la RSS, lo que demuestra que los mínimos cuadrados son equivalentes a la estimación de máxima verosimilitud cuando se asume normalidad.
3.4.5 Ejemplo : Lluvia en Quilpie y Estimación de Máxima Verosimilitud
En este ejemplo se registra la cantidad total de lluvia de julio (en milímetros) en Quilpie, Australia, junto con el valor del índice de oscilación del sur (SOI) mensual. El SOI es la diferencia estandarizada entre las presiones de aire en Darwin y Tahiti y se ha relacionado con la lluvia en partes de Australia. Algunos agricultores pueden retrasar la siembra hasta que se supere un cierto umbral de lluvia dentro de un periodo (una “ventana de lluvia”).
Para modelar este fenómeno, se define la variable respuesta \(y\) de la siguiente forma: \[
y =
\begin{cases}
1 & \text{si la lluvia total de julio excede 10 mm}, \\
0 & \text{en caso contrario.}
\end{cases}
\]
El parámetro desconocido es la probabilidad de que la lluvia supere los 10 mm, que denotamos por \(\mu\) (ya que \(E[y] = \mu = \Pr(y=1)\)). Por el momento se ignora el efecto del SOI y se considera que todas las observaciones son equivalentes.
La función de probabilidad de \(y\) se define como: \[
\mathcal{P}(y;\mu) = \mu^y (1-\mu)^{1-y},
\] para \(y = 0\) o \(1\). Esta es la distribución Bernoulli con probabilidad \(\mu\). En R, la función dbinom() evalúa esta función de probabilidad; fijando size=1, la distribución binomial se reduce a la distribución Bernoulli.
Se evalúa el log-verosimilitud para algunos valores candidatos de \(\mu\), lo que muestra que el estimador de máxima verosimilitud (MLE) de \(\mu\) se encuentra cerca de 0.5. El código empleado es el siguiente:
library(GLMsData)data(quilpie); names(quilpie)
[1] "Year" "Rain" "SOI" "Phase" "Exceed" "y"
mu <-c(0.2, 0.4, 0.5, 0.6, 0.8) # Valores candidatos para mull <-rep(0, 5) # Vector para guardar los log-verosimilitudesfor (i in1:5){ ll[i] <-sum(dbinom(quilpie$y, size=1, prob=mu[i], log=TRUE))}data.frame(Mu = mu, LogLikelihood = ll)
# Generar una secuencia de valores candidatos para mu (por ejemplo, de 0.1 a 0.9)mu_vals <-seq(0.1, 0.9, length.out =200)# Calcular la función de log-verosimilitud para cada valor de mull_vals <-sapply(mu_vals, function(mu) sum(dbinom(quilpie$y, size =1, prob = mu, log =TRUE)))# Convertir el log-verosimilitud a verosimilitud (exponenciando)likelihood_vals <-exp(ll_vals)# Graficar la función de verosimilitud y el log-verosimilitud en paneles separadospar(mfrow =c(2, 1), mar =c(4, 4, 2, 1)) # Configurar dos paneles verticales# Panel superior: Gráfico de la función de verosimilitudplot(mu_vals, likelihood_vals, type ="l", lwd =2, col ="blue",xlab =expression(mu), ylab ="Verosimilitud",main ="Función de Verosimilitud")abline(v =0.5147, lty =2, col ="red") # Línea vertical en el MLE# Panel inferior: Gráfico de la función log-verosimilitudplot(mu_vals, ll_vals, type ="l", lwd =2, col ="blue",xlab =expression(mu), ylab ="Log-Verosimilitud",main ="Función Log-Verosimilitud")abline(v =0.5147, lty =2, col ="red") # Línea vertical en el MLE
# Restablecer la distribución de los gráficos a una sola figura (opcional)par(mfrow =c(1, 1))
La figura anterior muestra el gráfico de la función de verosimilitud (panel superior) y el log-verosimilitud (panel inferior) para un rango mayor de valores de \(\mu\). Visualmente, el MLE de \(\mu\) aparece justo por encima de 0.5, y se señala una línea vertical en \(\hat{\mu} = 0.5147\).
3.5 Máxima Verosimilitud para Estimar un Parámetro
En esta sección se desarrolla un enfoque sistemático para maximizar el log-verosimilitud usando cálculo, y se introduce el concepto de score.
3.5.1 Ecuaciones de Score
Se define la función score como la derivada del log-verosimilitud con respecto al parámetro a estimar, digamos \(\zeta\): \[
U(\zeta)=\frac{d\ell(\zeta;y)}{d\zeta}.
\]
La ecuación que se resuelve para obtener el estimador de máxima verosimilitud (MLE) es: \[
U(\hat{\zeta})=0.
\]
Dado que los log-verosimilitudes que consideramos son unimodales y diferenciables, resolver la ecuación de score garantiza obtener el máximo global.
Además, la función score tiene la propiedad importante de que su esperanza es cero cuando se evalúa en el valor real del parámetro, es decir, \(E[U(\zeta)] = 0\).
3.5.1.1 Modelo Bernoulli
Para un modelo Bernoulli con probabilidad \(\mu\), la función de probabilidad es: \[
\mathcal{P}(y;\mu)=\mu^y (1-\mu)^{1-y},
\] y su log-verosimilitud para una observación es: \[
\log \mathcal{P}(y;\mu)=y\log\mu+(1-y)\log(1-\mu).
\]
La derivada con respecto a \(\mu\) es: \[
\frac{d\log \mathcal{P}(y;\mu)}{d\mu}=\frac{y-\mu}{\mu(1-\mu)}.
\]
Para \(n\) observaciones, la función score es: \[
U(\mu)=\frac{d\ell(\mu;y)}{d\mu}=\sum_{i=1}^n\frac{y_i-\mu}{\mu(1-\mu)}
=\frac{n(\bar{y}-\mu)}{\mu(1-\mu)}.
\]
Al resolver \(U(\hat{\mu})=0\), se obtiene que \(\hat{\mu}=\bar{y}\), es decir, la MLE de \(\mu\) es la media muestral.
3.5.2 Información: Observada y Esperada
Se define la información observada como: \[
\mathcal{J}(\zeta)=-\frac{d^2\ell(\zeta;y)}{d\zeta^2}=-\frac{dU(\zeta)}{d\zeta}.
\]
La información esperada (o Fisher information) es: \[
\mathcal{I}(\zeta)=E[\mathcal{J}(\zeta)].
\]
Esta medida indica cuánta información tienen los datos sobre el parámetro y se relaciona con la precisión del estimador. En el ejemplo Bernoulli, al evaluar en \(\mu=\hat{\mu}\) se obtiene: \[
\mathcal{J}(\hat{\mu})=\frac{n}{\hat{\mu}(1-\hat{\mu})}
\] y, en general, la información esperada es: \[
\mathcal{I}(\mu)=\frac{n}{\mu(1-\mu)}.
\]
3.5.3 Errores Estándar de los Parámetros
Usando una expansión en serie de Taylor, se demuestra que la varianza del MLE se puede aproximar como: \[
\operatorname{var}[\hat{\zeta}] \approx \frac{1}{\mathcal{I}(\zeta)}.
\]
Por lo tanto, el error estándar estimado de \(\hat{\zeta}\) es: \[
\text{SE}(\hat{\zeta}) \approx \frac{1}{\sqrt{\mathcal{I}(\hat{\zeta})}}.
\]
3.5.3.1 Ejemplo
En el ejemplo Bernoulli, usando la información de Fisher calculada previamente:
n <-length(quilpie$y)muhat <-mean(quilpie$y) Info <- n / (muhat * (1- muhat))c(muhat = muhat, FisherInfo = Info)
muhat FisherInfo
0.5147059 272.2354978
El error estándar se calcula como:
1/sqrt(Info)
[1] 0.06060767
Esto indica que el estimador \(\hat{\mu}\) tiene un error estándar aproximado de 0.0606.
3.6 Máxima Verosimilitud para Más de Un Parámetro
En esta sección se extiende la metodología de máxima verosimilitud al caso en que se estiman múltiples parámetros en un modelo de regresión. El proceso involucra la construcción de las ecuaciones score para cada parámetro, el cálculo de la información (observada y esperada), y la obtención de los errores estándar de los estimadores.
3.6.1 Ecuaciones Score
Modelo General:
Se asume que cada observación \(y_i\) sigue una distribución parametrizada por un parámetro de localización (media) \(\mu_i\) y un parámetro de dispersión \(\phi\). La media se define en función de las covariables \(x_{ij}\) y los parámetros de regresión \(\beta_j\) a través del predictor lineal \[
\eta_i=\beta_0+\beta_1x_{i1}+\cdots+\beta_px_{ip}
\] y mediante una función de enlace que relaciona \(\mu_i\) y \(\eta_i\), es decir, \(g(\mu_i)=\eta_i\).
Función Log-Verosimilitud y Funciones Score:
La log-verosimilitud para \(n\) observaciones es \[
\ell(\beta_0,\beta_1,\dots,\beta_p;y) = \sum_{i=1}^{n} \log \mathcal{P}(y_i;\mu_i,\phi).
\] Las funciones score para cada parámetro se definen como: \[
U(\beta_j)=\frac{\partial \ell(\beta_0,\beta_1,\dots,\beta_p;y)}{\partial \beta_j}
= \sum_{i=1}^{n} \frac{\partial \log \mathcal{P}(y_i;\mu_i,\phi)}{\partial \mu_i}\frac{\partial \mu_i}{\partial \beta_j}.
\] Así, hay una ecuación score por cada parámetro desconocido en el modelo, y se resuelven conjuntamente para obtener los estimadores de máxima verosimilitud.
3.6.2 Información: Observada y Esperada
Información Observada:
La segunda derivada negativa de la log-verosimilitud respecto a los parámetros mide la “curvatura” del log-verosimilitud alrededor del máximo y se define para el par de parámetros \((\beta_j, \beta_k)\) como: \[
\mathcal{J}_{jk}(\beta) = -\frac{\partial^2 \ell(\beta;y)}{\partial \beta_j \partial \beta_k}
= -\frac{\partial U(\beta_j)}{\partial \beta_k}.
\]
Información Esperada o Fisher Information:
Se define como \[
\mathcal{I}_{jk}(\beta) = E[\mathcal{J}_{jk}(\beta)].
\] En particular, la cantidad \(\mathcal{I}_{jj}(\beta)\) es una medida del monto de información disponible sobre el parámetro \(\beta_j\) y, de forma general, la varianza de un estimador de máxima verosimilitud se aproxima por: \[
\operatorname{var}[\hat{\beta}_j] \approx \frac{1}{\mathcal{I}_{jj}(\beta)}.
\]
3.6.3 4.6.3 Errores Estándar de los Parámetros
Utilizando la información esperada se puede obtener una aproximación de la precisión de los estimadores. Específicamente, el error estándar (la desviación típica) del estimador de \(\beta_j\) se estima como: \[
\operatorname{se}(\hat{\beta}_j) \approx \frac{1}{\sqrt{\mathcal{I}_{jj}(\hat{\beta})}}.
\]
Este resultado muestra que la precisión del MLE está inversamente relacionada con la cantidad de información disponible; mientras mayor sea \(\mathcal{I}_{jj}\), menor será el error estándar del estimador.
3.7 Máxima Verosimilitud Usando Álgebra Matricial
En esta sección se extiende el método de máxima verosimilitud al contexto de varios parámetros y se lo expresa usando álgebra matricial. Esto facilita el manejo de modelos complejos y permite utilizar métodos iterativos para resolver las ecuaciones score.
3.7.1 Notación
Se asume que las respuestas provienen de una distribución con función de probabilidad \[
\mathcal{P}(\mathbf{y};\boldsymbol{\zeta}),
\] donde \(\boldsymbol{\zeta} = [\zeta_1, \dots, \zeta_q]\) es el vector de parámetros desconocidos. La función de verosimilitud es la función de probabilidad vista como función de los parámetros: \[
\mathcal{L}(\boldsymbol{\zeta};\mathbf{y}) = \mathcal{P}(\mathbf{y};\boldsymbol{\zeta}).
\] La log-verosimilitud se define como: \[
\ell(\boldsymbol{\zeta};\mathbf{y}) = \log \mathcal{L}(\boldsymbol{\zeta};\mathbf{y}).
\] Los valores de los parámetros que maximizan la verosimilitud son los estimadores de máxima verosimilitud (MLE), denotados por \(\hat{\boldsymbol{\zeta}}\).
3.7.2 Ecuaciones Score
La derivada primera de la log-verosimilitud con respecto a \(\boldsymbol{\zeta}\) se conoce como el vector score: \[
U(\boldsymbol{\zeta}) = \frac{\partial \ell(\boldsymbol{\zeta};\mathbf{y})}{\partial \boldsymbol{\zeta}} = \sum_{i=1}^{n} \frac{\partial \log \mathcal{P}(y_i; \boldsymbol{\zeta})}{\partial \boldsymbol{\zeta}}.
\] Cada componente \(U(\zeta_j)\) de este vector es la derivada parcial con respecto a \(\zeta_j\). El MLE se obtiene resolviendo la ecuación de score: \[
U(\hat{\boldsymbol{\zeta}}) = \mathbf{0}.
\] En el caso de modelos de regresión, a menudo el interés se centra en los parámetros de la regresión. Por ejemplo, si el predictor lineal está dado por \[
\boldsymbol{\eta} = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} = X\boldsymbol{\beta},
\] y se define el enlace mediante \(\mu = g^{-1}(\eta)\), entonces se pueden escribir las ecuaciones score para cada \(\beta_j\) como: \[
U(\beta_j) = \frac{d\ell(\boldsymbol{\beta};\mathbf{y})}{d\mu} \frac{\partial \mu}{\partial \beta_j}.
\]
3.7.3 Información: Observada y Esperada
La información se mide a través de la segunda derivada de la log-verosimilitud. Se define la información observada como: \[
\mathcal{J}(\boldsymbol{\zeta}) = -\frac{\partial^2 \ell(\boldsymbol{\zeta}; \mathbf{y})}{\partial \boldsymbol{\zeta} \partial \boldsymbol{\zeta}^T}.
\] La información esperada (o información de Fisher) es: \[
\mathcal{I}(\boldsymbol{\zeta}) = E[\mathcal{J}(\boldsymbol{\zeta})].
\] En el contexto de modelos de regresión, con el predictor lineal \(\eta = X\boldsymbol{\beta}\), la información se puede expresar en términos de derivadas parciales con respecto a los parámetros y usualmente resulta en una matriz de dimensión \(p' \times p'\). Por ejemplo, la entrada \((j,k)\) se expresa como: \[
\mathcal{J}_{jk}(\boldsymbol{\beta}) = -\frac{\partial^2 \ell(\boldsymbol{\beta};\mathbf{y})}{\partial \beta_j \partial \beta_k}.
\] Las propiedades importantes son: 1. La esperanza del vector score es cero:\(E[U(\boldsymbol{\zeta})] = \mathbf{0}\). 2. La varianza del vector score es igual a la información esperada:\[
\operatorname{var}[U(\boldsymbol{\zeta})] = \mathcal{I}(\boldsymbol{\zeta}) = E[U(\boldsymbol{\zeta})U(\boldsymbol{\zeta})^T].
\]
3.7.4 Errores Estándar de los Parámetros
A partir de la matriz de información, se puede aproximar la varianza de cada estimador mediante el inverso de la matriz: \[
\operatorname{var}[\hat{\beta}_j] \approx (\mathcal{I}^{-1}(\boldsymbol{\beta}))_{jj}.
\] Por lo tanto, el error estándar de \(\hat{\beta}_j\) se estima como: \[
\operatorname{se}(\hat{\beta}_j) \approx \frac{1}{\sqrt{(\mathcal{I}^{-1}(\hat{\boldsymbol{\beta}}))_{jj}}}.
\]
3.7.5 Fisher Scoring para Computar MLEs
La estimación de máxima verosimilitud se obtiene al resolver \(U(\hat{\boldsymbol{\zeta}}) = \mathbf{0}\). Una técnica iterativa para hacer esto es el método de Newton-Raphson, que en forma matricial es: \[
\hat{\boldsymbol{\zeta}}^{(r+1)} = \hat{\boldsymbol{\zeta}}^{(r)} + \mathcal{J}(\hat{\boldsymbol{\zeta}}^{(r)})^{-1}U(\hat{\boldsymbol{\zeta}}^{(r)}).
\] Debido a que la matriz de información observada puede ser complicada de calcular, se utiliza en su lugar la matriz de información esperada (Fisher scoring): \[
\hat{\boldsymbol{\zeta}}^{(r+1)} = \hat{\boldsymbol{\zeta}}^{(r)} + \mathcal{I}(\hat{\boldsymbol{\zeta}}^{(r)})^{-1}U(\hat{\boldsymbol{\zeta}}^{(r)}).
\]
Esta es una forma más estable y a menudo más sencilla de implementar la estimación de máxima verosimilitud.