Concepto
El término bootstrap se refiere a la realización de inferencias estadísticas basadas en el remuestreo de un conjunto de datos procedentes de una muestra aleatoria.
Bootstrap no paramétrico
En las técnicas de remuestreo se parte de una muestra aleatoria de datos X = (x1, x2, ..., xn) procedentes de una determinada población y se utiliza únicamente esta información muestral para realizar estimaciones de parámetros poblacionales, sin necesidad de hacer supuestos adicionales sobre la distribución de la población entera.
Por ejemplo, imaginemos que disponemos de 5 valores correspondientes a la renta mensual en euros de hogares en una determinada ciudad X = (2500, 1850, 3200, 1420, 2150). Si queremos calcular un intervalo de confianza para la media de la renta en toda la ciudad, una opción sería suponer que la distribución de la renta en toda la población es normal y calcular las cotas del intervalo bajo este supuesto. La inferencia estadística habitual permite calcular estas cotas a partir de la siguiente expresión:
donde
representan la medida muestral, cuasi-desviación típica muestral, tamaño muestral y el valor crítico en la tabla t de Student correspondiente. En nuestro caso, el intervalo en cuestión, para un 95 % de confianza, vendría dado por:
y su validez depedería de si la hipótesis de distribución normal de la renta en la población de la ciudad es cierta o no.
Sin embargo, si no conocemos la distribución poblacional, otra opción sería volver a obtener una muestra a partir de la inicial asignando una probabilidad de extraer cada valor igual a 1/5 y permitiendo extracciones con repetición. Posibles muestras obtenidas en este proceso serían:
X1 = (1850, 3200, 1420, 1850, 1420)
X2 = (2150, 1420, 1850, 1850, 3200)
y así, sucesivamente, hasta obtener un número B de muestras obtenidas a partir de la inicial (por ejemplo 200 muestras). A este proceso se le denomina remuestreo y consiste en obtener, mediante el uso del ordenador, nuevas muestras a partir de la inicial procediendo a realizar muestreos con reemplazamiento de los valores muestrales iniciales. Es decir, para obtener cada muestra bootstrap, a cada valor muestral inicial se le asigna una probabilidad de extracción de 1/n y se realizan extracciones con reemplazamiento hasta completar n valores. Hay que tener en cuenta que, al ser muestras con reemplazamiento, los valores de la muestra bootstrap no coincidirán, en general, con los valores muestrales iniciales, por lo que al final del proceso tendremos B muestras distintas.
En cada una de las muestras anteriores es posible calcular el valor de la media muestral, por lo cual, en nuestro ejemplo, al final del proceso tendríamos 200 valores de la media muestral.

Una vez obtenido el conjunto de estimaciones (una para cada muestra bootstrap), es posible realizar un histograma que nos permita conocer la distribución de las estimaciones y construir un intervalo al 95 % de confianza seleccionando los valores que dejen el 2.5 % de la distribución en cada cola (técnicamente, los percentiles 2.5 y 97.5 respectivamente). El histograma obtenido en nuestro caso con las 200 estimaciones de la media muestral se representa en el gráfico inferior:

A partir del histograma podemos calcular el intervalo para la media de la renta en la ciudad con los valores (1780.90, 2844.15). Este intervalo está desplazado respecto al anterior debido a que la distribución de las estimaciones bootstrap es claramente asimétrica a la derecha mientras que la hipótesis de normalidad realizada anteriormente presupone que la distribución era simétrica.
En realidad, el intervalo boostrap “puro” calculado está, en general, sesgado, por lo que se han diseñado procedimientos más complejos para corregir el posible sesgo de estos intervalos. Entre los intervalos bootstrap habitualmente utilizados destacan el intervalo bootstrap-t, el intervalo percentil y el intervalo de sesgo-corregido y acelerado BCa. Todos estos intervalos están basados en la idea de remuestreo bootstrap expuesta anteriormente realizando modificaciones que permiten disminuir la erraticidad de dichas estimaciones. Por otro lado, es evidente que la calidad de las estimaciones bootstrap también dependerá del número B de muestras generadas y se recomienda que dicho número sea suficientemente grande para que la distribución de las estimaciones sea próxima a la real. Con carácter general, se suele recomendar un número mínimo de unas 1000 muestras, aunque en ocasiones, especialmente cuando el coste computacional es elevado, puede ser suficiente con números sensiblemente más bajos (por ejemplo, 100 muestras bootstrap).
Bootstrap paramétrico
En el apartado anterior, para realizar los remuestreos, no se hizo ninguna distribución sobre la población de partida; por eso a esta técnica se le denomina bootstrap no paramétrico. En otras ocasiones, se supone conocida la distribución de la población y se remuestrea generando muestras acordes con esta distribución. A este tipo de remuestreo se le denomina bootstrap paramétrico.
Por ejemplo, en el caso anterior podríamos haber supuesto que la renta de toda la población de la ciudad se distribuye de acuerdo a una normal con parámetros estimados a partir de la muestra. En nuestro caso, la distribución supuesta hubiera sido N(2224;674.63) donde la media y desviación típica se obtienen a partir de la media muestral y cuasi-desviación típica muestral de la muestra original. A partir de aquí podríamos generarnos con un ordenador B muestras aleatorias con la distribución supuesta y obtener una estimación de la media para cada muestra. El histograma de la distribución de las medias muestrales sería similar al siguiente:

El intervalo, al 95 % de confianza, sería ahora (1607.513;2805.340) obtenido a partir de los percentiles 2.5 y 97.5 respectivamente.
Como se puede observar, el histograma ahora es prácticamente simétrico debido a la hipótesis de normalidad que hemos hecho sobre la distribución. Como consecuencia, el extremo inferior del intervalo está más cercano al primer intervalo calculado a partir de la inferencia derivada de la distribución normal.
En principio, es difícil discriminar si el intervalo más adecuado corresponde al obtenido con el bootstrap paramétrico o con el no paramétrico. Si la hipótesis de distribución realizada por el bootstrap paramétrico es cierta (o, al menos, la distribución real no difiere demasiado de la distribución supuesta), el intervalo obtenido con el bootstrap paramétrico será probablemente más adecuado, ya que utiliza más información que el no paramétrico. Por el contrario, si la distribución supuesta es claramente inadecuada, el bootstrap no paramétrico sería preferido.
Además de realizar inferencias sobre las medias, esta metodología se puede aplicar a otros muchos estadísticos realizando inferencias, por ejemplo, sobre desviaciones típicas, coeficiente de asimetría, coeficiente de curtosis, correlaciones entre variables,... Un uso habitual del bootstrap no paramétrico corresponde al diseño de contrastes e intervalos basados en los residuos de una regresión cuando no se quiere realizar ninguna hipótesis sobre la distribución de las variables incluidas en la propia regresión.
Con carácter general, los métodos bootstrap requieren el uso intensivo de ordenadores, aunque, con el poder de computación actual, están siendo incorporados en todo el software estadístico estándar.
Recuerde que...
- • Se puede distinguir entre el bootstrap no paramétrico y el bootstrap paramétrico .
- • Cuando para realizar los remuestreos no se hace ninguna distribución sobre la población de partida se denomina bootstrap no paramétrico.
- • Cuando se concoe se supone la distribución de la población y se remuestrea generando muestras acordes con esta distribución se le denomina bootstrap paramétrico.
- • Los métodos bootstrap requieren el uso intensivo de ordenadores, aunque, con el poder de computación actual, están siendo incorporados en todo el software estadístico estándar.
- • En principio, es difícil discriminar si el intervalo más adecuado corresponde al obtenido con el bootstrap paramétrico o con el no paramétrico.