Edición de datos
PROCESAMIENTO Y VALIDACIÓN DE DATOS
El procesamiento de los datos se realiza en varias etapas, incluye la revisión de microdatos a nivel de hogar y posteriormente la revisión de datos agregados, en bases de datos. La revisión de microdatos incluye la codificación de las preguntas abiertas como sector institucional, rama de actividad económica, ocupación, educación universitaria y bienes y servicios adquiridos, y la fase de validación. Estas etapas inician en campo, por parte del personal entrevistador, quienes tienen la tarea de realizar la codificación y la limpieza de inconsistencias de nivel básico; además realizan un análisis de consistencia agregada por hogar denominado balance financiero, en el que se contrastan los ingresos y gastos del hogar transformados en valores mensuales.
En otro proceso, de oficina, se revisan los archivos y formularios en papel recibidos del trabajo de campo, se hace una verificación de códigos y una validación de la información general del hogar, se limpian inconsistencias que provienen de un plan más amplio y se completa información faltante por medio de llamada telefónica a los hogares, registros administrativos u otras fuentes como páginas institucionales, sitios de supermercados u otros comercios, entre otras.
Cuando la información está agregada en bases de datos con submuestras completas, se revisan valores atípicos especialmente en alimentos, tanto de gasto como de cantidades. Estos valores se corrigen con información del mismo hogar hasta donde sea posible o con ayuda de otros registros. Finalmente, una vez completada la muestra total se realizan, sobre la base de datos, imputaciones de datos ignorados o rechazados.
La etapa de procesamiento de datos se realiza simultáneamente a la recolección, con un desfase de una a tres decenas (15 días). Inició el 6 de febrero de 2018 con la capacitación de personal de validación y el 15 de abril de 2019 terminaron las fases iniciales de limpieza, posteriormente se extendió hasta el mes de agosto de 2019 con imputaciones.
VALIDACION DE DATOS
La validación de micro datos se realiza en varias etapas, que hemos llamado validación I, validación II y análisis de consistencia agregada.
VALIDACION I
En esta primer fase, se realizan varias funciones:
· Verificación de códigos: La información que se recibe de campo debe venir codificada, sin embargo, en validación I se tiene la directriz de revisar cada una de las secciones en las que deben existir una asignación de códigos, tal como lo son: carrera en educación superior, sector institucional, rama de actividad y ocupación del empleo principal y secundario, y los códigos de bienes y servicios que se recogen en los formularios 2, 3 y 4.
· Revisión de inconsistencias: estas son patrones programados dentro de la información para detectar incongruencias o faltante de información dentro de lo que se recibe de campo, con el fin de verificar con el hogar, ya sea para cambiarlo, aceptarlo o bien eliminarlo.
En total se contaba con 1212 inconsistencias programadas, cada persona validadora, empleando el sistema CSPro, corre las inconsistencias y se dedica a corregir los errores en los formularios de cada hogar.
Cada validador tiene la responsabilidad de depurar la mayor cantidad de inconsistencias posible, empleando toda la información a la que tiene acceso, además, del acompañamiento del supervisor de validación I. Para lo anterior cada validador tiene a disposición lo siguiente: llamadas externas por medio de diademas, para llamar a la persona entrevistadora o al hogar, equipo de cómputo con acceso a internet; materiales de apoyo como diccionarios de códigos de rama de actividad, ocupación, códigos de bienes y servicios, y de carrera profesional, archivo con información a nivel municipal para todo el país, plantillas de cálculos para verificar ingresos según su fuente, manuales de presentaciones de alimentos, los cuestionarios en formato PDF e instructivos para revisión.
· Revisión del balance financiero del hogar: este es un informe resumen sobre el estado financiero de cada hogar que contrasta los ingresos y gastos de cada hogar a partir de la información suministrada por estos. El validador debe entender el comportamiento económico de cada hogar que revisa y examinar minuciosamente los casos en que el balance sea de ±20% (déficit o superávit), a partir de lo cual debe corregir o describir la situación particular de cada caso a modo de justificación de la información proveniente de campo.
VALIDACION II
Esta etapa consiste en la incorporación de la información de facturas de compra en supermercados dentro de los gastos diarios del hogar. Para esto se creó una aplicación en los sistemas de procesamiento en la que se ingresa la información de la factura y esta es enviada por medio de correo electrónico a los supermercados cooperantes. Cuando se recibe el archivo de regreso con el desglose de los artículos adquiridos, se realizan varios chequeos de consistencia, luego se codificaba “automáticamente” si el articulo ya estaba ingresado en el diccionario de códigos de barra, de lo contrario se codifica manualmente.
Una vez incorporada la información de las facturas se realiza un chequeo de inconsistencias de información para los alimentos y nuevamente se revisa el balance general financiero del hogar.
ANALISIS DE VALORES EXTREMOS Y CONSISTENCIA AGREGADA
Con información agregada de submuestras de trabajo se iba aplicando un análisis de valores extremos para una gran parte de las variables numéricas (gasto e ingreso) con el fin de limpiar la información que quedaría como base de datos de procesamiento. Se consideraron como atípicos mínimos los valores menores a 3 veces el rango intercuartil menos al valor del primer cuartil, o extremos superiores si es 3 veces el rango intercuantil mayor al tercer cuartil.
Cada variable tiene un tratamiento, dependiendo de su naturaleza; en algunos casos se revisaba información de otras variables para corroborar la pertinencia de un valor. Para el caso de variables categóricas se realizaban frecuencias de cada una o cuadros cruzados de variables relacionadas, con esto se detectaban inconsistencias o valores perdidos. Algunas de estas inconsistencias se debían a omisión de pases o valores fuera de rango que no fueron advertidos por las inconsistencias a nivel de micro datos o fueron pasados por alto.
Conforme se avanzaba en el procesamiento de datos la nueva información era agregada, de manera que la revisión se hacía sobre una base acumulativa.
En el caso de alimentos se aplicó una verificación de precio por miligramo, para detectar posibles errores en cantidades o precios; como base se utilizó la información obtenida con la ENIGH 2013 y se fue alimentando con los datos que ingresaban cada decena de trabajo.
Una vez realizados los cambios requeridos a cada una de las bases y posterior a cada replica (un trimestre) se realizaron rutinas de estadísticas descriptivas sobre vivienda, población, empleo, entre otras, comparables con la información de otras encuestas como la Encuesta Nacional de Hogares o la Encuesta Continua de Empleo, además del análisis de estructuras de gasto e ingreso y la relación entre ambas, comparables con la información obtenida en la ENIGH anterior.