Son aquellos que no constan debido a cualquier acontecimiento, como por ejemplo errores en la transcripción de los datos o la ausencia de disposición a responder a ciertas cuestiones de una encuesta. Los datos pueden faltar de manera aleatoria o no aleatoria.

Los datos faltantes aleatorios pueden perturbar el análisis de datos dado que disminuyen el tamaño de las muestras y en consecuencia la potencia de las pruebas de contraste de hipótesis. Los datos faltantes no aleatorios ocasionan, además, disminución de la representatividad de la muestra.

Tratamiento

  • De casos completos o eliminación por lista

Este procedimiento consiste en incluir en el análisis los casos que presentan observaciones completas en todas las variables. Este método solo debe utilizarse cuando el proceso de recogida de datos es aleatorio, porque en otro caso introduce sesgo. Otro inconveniente es que el tamaño muestral puede llegar a sufrir una gran reducción y afectar a la representatividad de la muestra.

  • Selección por variables

Se mantienen en la base de datos los casos con tal que tengan datos en las variables que van a ser utilizadas para el análisis. Este procedimiento tiene el inconveniente de generar muestras heterogéneas.

Métodos de imputación

Los métodos de imputación consisten en estimar los valores ausentes en base a los valores válidos de otras variables y/o casos de la muestra. La estimación se puede hacer a partir de la información del conjunto completo de variables o bien de algunas variables especialmente seleccionadas. Usualmente los métodos de imputación se utilizan con variables métricas (de intervalo o de razón), y deben aplicarse con gran precaución porque pueden introducir relaciones inexistentes en los datos realas.

Principales procedimientos:              

Sustitución por la Media. Consiste en sustituir el valor ausente por la Media de los valores válidos. Este procedimiento plantea inconvenientes como:

  • Dificulta la estimación de la Variancia.
  • Distorsiona la verdadera distribución de la variable.
  • Distorsiona la correlación entre variables dado que añade valores constantes.

Sustitución por constante. Consiste en sustituir los valores ausentes por constantes cuyo valor viene determinado por razones teóricas o relacionadas con la investigación previa. Presenta los mismos inconvenientes que la sustitución por la Media, y solo debe ser utilizado si hay razones para suponer que es más adecuado que el método de la media.

Imputación por regresión. Este método consiste en estimar los valores ausentes en base a su relación con otros variables mediante Análisis de Regresión.

Inconvenientes:

  • Incrementa artificialmente las relaciones entre variables.
  • Hace que se subestime la Variancia de las distribuciones.
  • Asume que las variables con datos ausentes tienen relación de alta magnitud con las otras variables.

Por Heb MERMA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *