EL RINCON DEL INTERNISTA

Intensive Review of Internal Medicine: Principios Básicos de Epidemiología y Bioestadística.

Al revisar las preguntas anteriores de los comités, los principios epidemiológicos y bioestadísticos importantes que se abordan con más frecuencia incluyen la detección para el control de enfermedades (incluida la sensibilidad, la especificidad y el valor predictivo de una prueba de detección y el sesgo en la interpretación de los resultados); la medición de datos (incluidas las medidas de frecuencia de la enfermedad [incidencia, prevalencia] y las medidas de asociación [riesgo relativo {RR}, riesgo atribuible {AR}, número necesario a tratar]); y la interpretación de los datos (incluidos los tipos de estudios epidemiológicos y los roles del azar, el sesgo y los factores de confusión en la interpretación de los hallazgos). En este capítulo, revisamos estos temas en el contexto de preguntas clínicas específicas. Los principios resumidos se extraen en gran medida del libro de texto Epidemiología en medicina, y este libro debe consultarse para obtener más ejemplos. Hay muchas otras fuentes de epidemiología y estadística de nivel introductorio que también se pueden utilizar, y se enumeran al final de este capítulo.

Pruebas de detección para el control de enfermedades

Pregunta 1:

Cien mujeres mayores de 50 años se sometieron a mamografías en una unidad móvil de detección del cáncer de mama. Veintisiete mujeres presentaron hallazgos sospechosos de malignidad en la mamografía; 19 de estas mujeres fueron confirmadas con una biopsia de cáncer de mama. Una mujer tuvo una mamografía negativa pero al año siguiente desarrolló cáncer de mama y se supone que tenía la enfermedad en el momento de la prueba de detección. ¿Cuál es la sensibilidad de la mamografía? ¿La especificidad? ¿Y el valor predictivo de una prueba de detección positiva?

VALIDEZ Y RENDIMIENTO DE UNA PRUEBA DE DETECCIÓN

La detección se refiere a la aplicación de una prueba simple y económica a individuos asintomáticos para clasificarlos como probables o improbables de tener una enfermedad en particular. Una enfermedad es apropiada para la detección si (1) es grave; (2) su prevalencia preclínica es alta entre la población examinada; y (3) el tratamiento administrado mientras la enfermedad es asintomática es más beneficioso que el tratamiento administrado después de que aparecen los síntomas. Además, debe estar disponible una prueba de detección válida. La validez de una prueba de detección se define por su capacidad de clasificar correctamente a quienes tienen una enfermedad preclínica como positivos en la prueba de detección (medida por la sensibilidad de una prueba de detección) y a quienes no tienen una enfermedad preclínica como negativos en la prueba de detección (medida por la especificidad de la prueba de detección). Finalmente, el rendimiento, o el número de casos detectados por el programa de detección, se considera utilizando el valor predictivo positivo o la probabilidad de que una persona realmente tenga la enfermedad si da positivo en la prueba de detección. La figura 99.1 presenta los datos de la pregunta 1 en forma de una tabla de 2 × 2, que resume la relación entre los resultados de la prueba de detección (mamografía) y la presencia "real" de la enfermedad según se evalúa por los resultados de la prueba diagnóstica posterior adecuada (biopsia de mama). La sensibilidad se puede calcular entonces como la probabilidad de un resultado positivo en la prueba de detección si la enfermedad está realmente presente y la especificidad como la probabilidad de un resultado negativo en la prueba de detección si la enfermedad está realmente ausente. En este ejemplo, la sensibilidad de la mamografía es de 19/20 o 95%, lo que significa que de aquellas en las que se detectó cáncer de mama en la biopsia, el 95% de ellas dieron positivo en la mamografía, y la especificidad, 72/80 o 90%, lo que significa que de aquellas que dieron negativo en la biopsia para cáncer de mama, el 90% dieron negativo en la mamografía de detección. Finalmente, de aquellas que dieron positivo en la mamografía, su valor predictivo de una prueba positiva, o su probabilidad de ser diagnosticadas con cáncer de mama en la biopsia, fue de 19/27 o 70%.

Figura 1. Características de una prueba de detección: sensibilidad, especificidad y valor predictivo.

¿QUÉ INFLUYE EN LA SENSIBILIDAD, ESPECIFICIDAD Y VALOR PREDICTIVO?

La sensibilidad y especificidad de una prueba de detección determinada dependen en parte de nuestra capacidad biológica para identificar los estadios preclínicos de una enfermedad determinada y de nuestra capacidad tecnológica para desarrollar una buena prueba de detección, pero también pueden verse afectadas por lo que se denomina criterio de positividad, es decir, el valor de corte que se utiliza para definir una prueba de detección “anormal”. Reducir este criterio o hacerlo menos estricto (es decir, establecer el criterio de positividad para una prueba de detección de hipertensión, por ejemplo, como una presión arterial sistólica única de 120 mmHg) aumentará la sensibilidad de la prueba de detección y disminuirá los falsos negativos, ya que todas las personas con hipertensión serán detectadas por la prueba. Pero también reducirá la especificidad de la prueba y aumentará los falsos positivos, ya que muchas personas normotensas darán positivo en la prueba utilizando este criterio. De manera similar, elevar el criterio o hacerlo más estricto (es decir, fijar el criterio de positividad en 160 mmHg) significará que una mayor proporción de personas con hipertensión darán negativo en la prueba de detección (menor sensibilidad y mayor cantidad de falsos negativos), pero más personas que son verdaderamente normotensas darán negativo en la prueba de detección (mayor especificidad y menor cantidad de falsos positivos). El valor predictivo de una prueba positiva se ve afectado solo levemente por los cambios en la sensibilidad y especificidad de la prueba, pero puede aumentarse principalmente al producir un aumento en la prevalencia subyacente de la enfermedad preclínica en la población examinada, por ejemplo, dirigiendo el programa de detección a un grupo con mayor riesgo de desarrollar la enfermedad por la naturaleza de su perfil de factores de riesgo (como en el caso anterior, la detección de mujeres mayores o aquellas con antecedentes familiares positivos de cáncer de mama o antecedentes personales de enfermedad mamaria benigna).

SESGO EN LA INTERPRETACIÓN DE LOS RESULTADOS DE LOS CRIBADOS

Al evaluar la eficacia de un programa de cribado (es decir, si el programa de cribado es eficaz o no para reducir la morbilidad o la mortalidad por la enfermedad), las poblaciones sometidas a cribado y las no sometidas a cribado deben ser comparables con respecto a todos los demás factores que afectan al curso de la enfermedad, además del propio programa de cribado. Una fuente de sesgo de particular importancia en la interpretación de los resultados de un programa de cribado es el “sesgo de anticipación”, relacionado con el tiempo que se ha adelantado al diagnóstico de la enfermedad como resultado directo del programa de cribado. Como el cribado se aplica a individuos asintomáticos, cada caso detectado mediante cribado se diagnostica antes que si el diagnóstico se hubiera basado en esperar a que se desarrollaran los síntomas clínicos. Si esa estimación del tiempo de anticipación no se considera al comparar los resultados de mortalidad entre los grupos sometidos a cribado y los no sometidos a cribado, la supervivencia a partir del diagnóstico puede parecer más larga para el grupo sometido a cribado sólo porque el diagnóstico se realizó en una etapa más temprana del curso de la enfermedad. El sesgo de anticipación puede abordarse comparando las tasas de mortalidad específicas por edad en los grupos examinados y no examinados en lugar de comparar la duración de la supervivencia desde el diagnóstico hasta la muerte.

Medición de datos: medidas de frecuencia de enfermedades y medidas de asociación.

Pregunta 2: Para cada afirmación subsiguiente, elija la medida de frecuencia de enfermedades que mejor describa cada frecuencia de enfermedades:

Prevalencia

Incidencia

Razón de morbilidad estandarizada

Medida específica por edad

Medida ajustada por edad

1. En el examen inicial del estudio, 17 personas por cada 1000 tenían evidencia de enfermedad cardíaca coronaria.

2. En el examen inicial del estudio, 31 personas de 45 a 62 años tenían evidencia de enfermedad cardíaca coronaria por cada 1000 personas examinadas en este grupo de edad.

3. En el examen inicial del estudio, los hombres y las mujeres tenían la misma prevalencia de enfermedad cardíaca coronaria, después de controlar las diferencias de edad entre los grupos.

4. Durante los primeros 8 años del estudio, 45 personas desarrollaron enfermedad coronaria por cada 1000 personas que ingresaron al estudio sin la enfermedad.

5. Durante los primeros 8 años del estudio, la frecuencia observada de angina de pecho en fumadores empedernidos fue 1,6 veces mayor que la frecuencia esperada en función de los no fumadores.

MEDIDAS DE FRECUENCIA DE ENFERMEDADES

Es necesario que cualquier investigación epidemiológica pueda cuantificar la aparición de enfermedades midiendo el número de individuos afectados dado el tamaño de la población de origen y el período durante el cual se recopilaron los datos, lo que permite la comparación directa de las frecuencias de enfermedades en dos o más grupos de individuos. Las medidas de frecuencia de enfermedades que se utilizan con más frecuencia son la incidencia y la prevalencia. Como se muestra en el Cuadro 1, la prevalencia representa una instantánea del estado de la población en un momento determinado y se calcula como el número de casos existentes de una enfermedad dividido por el tamaño de la población total en ese momento específico. La incidencia, por otro lado, representa el desarrollo de la enfermedad y se calcula como el número de casos nuevos de una enfermedad que se desarrollaron durante un período de tiempo específico dividido por la población en riesgo de ser un nuevo caso de la enfermedad.

Cuadro 1. Medidas de frecuencia de enfermedades en estudios epidemiológicos

Las medidas de frecuencia de enfermedades pueden calcularse para la población en su conjunto o pueden ser específicas para una categoría o subgrupo particular de la población, como una frecuencia específica por edad o por género. Cuando se comparan dos o más poblaciones, estas medidas también pueden ajustarse para las diferencias iniciales entre las poblaciones, como una frecuencia ajustada por edad o por género, o los casos observados en una población pueden compararse con el número de casos que se esperaría en función de la experiencia previa o de otra población (cociente de morbilidad estandarizado).

Por lo tanto, las respuestas correctas para la pregunta 2 serían:

1. En el examen inicial del estudio, 17 personas por cada 1000 tenían evidencia de enfermedad cardíaca coronaria: prevalencia.

2. En el examen inicial del estudio, 31 personas de 45 a 62 años tenían enfermedad cardíaca coronaria por cada 1000 personas examinadas en este grupo de edad: prevalencia específica por edad.

3. En el examen inicial del estudio, los hombres y las mujeres del estudio tenían la misma prevalencia de enfermedad cardíaca coronaria, controlando las diferencias entre los grupos con respecto a la edad: Prevalencia ajustada por edad.

4. Durante los primeros 8 años del estudio, 45 personas desarrollaron enfermedad cardíaca coronaria por cada 1000 personas que ingresaron al estudio libres de enfermedad: Incidencia.

5. Durante los primeros 8 años del estudio, la frecuencia observada de angina de pecho en fumadores empedernidos fue 1,6 veces mayor que la frecuencia esperada en función de los no fumadores: Índice de morbilidad estandarizado.

Cálculo de las medidas de frecuencia de la enfermedad

Pregunta 3:

A principios de 2012, 800 personas diagnosticadas con diabetes vivían en una ciudad que tenía una población estimada a mitad de año de 10 000 habitantes. Durante ese año, se diagnosticaron 200 nuevos casos de diabetes en la ciudad y 40 personas murieron por complicaciones de la diabetes. 1. ¿Cuál fue la incidencia de diabetes por 1000 habitantes durante 2012?

2. ¿Cuál fue la prevalencia de diabetes por 1000 habitantes el 1 de enero de 2012?

3. ¿Cuál fue la prevalencia de diabetes por 1000 habitantes el 31 de diciembre de 2012?

4. ¿Cuál fue la mortalidad por 1000 habitantes por diabetes durante 2012?

5. Si la prevalencia de diabetes en 2012 fue menor que la prevalencia de diabetes en 2010, ¿podría deberse a un cambio en la tasa de incidencia, a un cambio en la duración de la enfermedad o a ambos?

Las definiciones que se dan en el Cuadro 1 proporcionan la información necesaria para calcular cada una de las medidas individuales de incidencia y prevalencia. A menudo, la población se proporciona como una estimación a mitad de año y, en ese caso, la “población en riesgo” es la misma que la población total. En cuanto a su interrelación, la prevalencia (la proporción de la población que padece una enfermedad en un momento determinado) depende tanto de la tasa de desarrollo de una nueva enfermedad durante el período de tiempo (incidencia) como de la duración de la enfermedad desde su aparición hasta su terminación (por ejemplo, la curación o la muerte). Por lo tanto, un cambio en la prevalencia de una población a otra o de un período de tiempo a otro puede reflejar un cambio en la incidencia, un cambio en la duración de la enfermedad o ambos.

Por lo tanto, las respuestas a la pregunta 3 serían:

1. Incidencia de diabetes durante 2012 = 200/10.000 = 20/1.000

2. Prevalencia de diabetes el 1 de enero de 2012 = 800/10.000 = 80/1.000

3. Prevalencia de diabetes el 31 de diciembre de 2012 = (800 + 200 – 40)/10.000 = 96/1.000

4. Mortalidad por diabetes en la población durante 2012 = 40/10.000 = 4/1.000

5. Si la prevalencia de diabetes en 2012 fue menor que la prevalencia de diabetes en 2010, esto podría deberse a un cambio en la tasa de incidencia, un cambio en la duración de la enfermedad o cambios en ambos.

MEDIDAS DE ASOCIACIÓN

Mientras que el cálculo de medidas apropiadas de frecuencia de enfermedad es la base para la descripción y la comparación de poblaciones, también es eficiente e informativo combinar las dos frecuencias que se comparan en un único parámetro resumen que estima la asociación entre la exposición y el riesgo de desarrollar el resultado. Esto se puede lograr calculando la razón de las medidas de frecuencia de enfermedad para las dos poblaciones, que indica cuánta mayor probabilidad en una escala relativa tiene un grupo de desarrollar una enfermedad que otro, o la diferencia entre las dos medidas de frecuencia de enfermedad, que indica en una escala absoluta cuánto mayor es la frecuencia de la enfermedad en un grupo en comparación con el otro. Estas dos medidas de asociación se conocen en términos generales como RR y RA.

El RR estima la magnitud de la asociación entre la exposición y la enfermedad y representa la probabilidad de desarrollar el resultado en el grupo expuesto en relación con aquellos que no están expuestos. En un estudio de cohorte o ensayo aleatorizado, esto se define como la razón de la incidencia en el grupo expuesto (Ie) dividida por la incidencia correspondiente de la enfermedad en el grupo no expuesto (Io); El RR es una medida de la fuerza de la asociación entre la exposición y la enfermedad. Si no hay asociación entre la exposición y la enfermedad, es decir, bajo la hipótesis nula, el RR será igual a 1. Los valores >1 indican que quienes están expuestos tienen un mayor riesgo de desarrollar el resultado y los valores <1, un riesgo menor.

El RA entre los expuestos proporciona información sobre el efecto absoluto de la exposición o el exceso de riesgo de enfermedad en los expuestos en comparación con los no expuestos. Nuevamente, en un estudio de cohorte o ensayo aleatorio, esta medida se define como la diferencia entre las tasas de incidencia en los grupos expuestos y no expuestos, calculada como Ie – Io. Si no hay asociación entre la exposición y la enfermedad, es decir, bajo la hipótesis nula, el RA será igual a 0. Suponiendo que existe una relación causal entre la exposición y la enfermedad y que el RA es >0, su valor indica el número de casos de la enfermedad entre los expuestos que se pueden atribuir a la exposición en sí o, alternativamente, el número de casos de la enfermedad entre los expuestos que podrían eliminarse si se eliminara la exposición. Como tal, la RA entre los expuestos es útil como una medida del impacto en la salud pública de una exposición particular.

El RA entre los expuestos también se puede expresar como un porcentaje, calculado como RA% = RA/Ie × 100, para estimar la proporción de la enfermedad entre los expuestos que es atribuible a la exposición o la proporción de la enfermedad en ese grupo que podría prevenirse eliminando la exposición. Además, para fines clínicos, el número necesario a tratar (NNT) para prevenir un caso del resultado se puede calcular, como el inverso del valor absoluto de la RA entre los expuestos, o NNT = 1/RA.

El RR y la RA proporcionan tipos de información muy diferentes pero complementarios. El RR es una medida de la fuerza de la asociación entre una exposición y una enfermedad y proporciona información que se puede utilizar para juzgar si es probable que una asociación observada válida sea causal. En contraste, la AR proporciona una medida del impacto en la salud pública de una exposición, suponiendo que la asociación es de causa y efecto.

Cálculo de las medidas de asociación

Pregunta 4:

Se realizó un ensayo aleatorizado de un nuevo fármaco de estatinas para evaluar su posible beneficio en la muerte por enfermedad cardíaca coronaria. Se ingresó en el estudio un total de 4000 pacientes, 2000 asignados a la estatina activa y 2000 a placebo. De los 2000 asignados a la estatina, 200 de ellos murieron por enfermedad cardíaca coronaria en la duración media de seguimiento de 5 años; de los 2000 asignados a placebo, 300 murieron por enfermedad cardíaca coronaria. ¿Cuál es la magnitud de la asociación entre la estatina y la muerte por enfermedad cardíaca coronaria? ¿Cuál es el posible impacto en la salud pública de este fármaco? ¿Cuál es el número necesario de pacientes a tratar para prevenir una muerte por enfermedad cardíaca coronaria?

La figura 2 presenta la tabla 2 × 2 que resume los datos del ensayo aleatorizado de la pregunta 4. El RR, calculado como la incidencia del resultado (morir por enfermedad coronaria) en los expuestos (aquellos asignados a la estatina) dividido por la incidencia en los no expuestos (aquellos asignados al placebo), es 200/2000 dividido por 300/2000 o 0,67. Esto significa que aquellos asignados a la estatina tuvieron un 67% del riesgo, o un 33% menos de riesgo (1 – 0,67), de morir por enfermedad coronaria durante este período que aquellos asignados al placebo. La AR, calculada como la incidencia en los expuestos menos la incidencia en los no expuestos, es 200/2000 – 300/2000 o –0,05. Esto significa que si las estatinas están causalmente relacionadas con la prevención de la mortalidad por enfermedad cardíaca coronaria, 5 de cada 100 de las muertes por enfermedad cardíaca coronaria en el grupo placebo podrían haberse evitado con el uso de esta estatina. Tomando la inversa de esta AR, 1/0,05, se obtiene el número necesario para tratar, o 20, lo que indica que necesitaríamos tratar a 20 pacientes con esta estatina durante 5 años (la duración media del seguimiento) para prevenir 1 muerte por enfermedad cardíaca coronaria.

Fig. 2 Medidas de asociación en un estudio de cohorte o ensayo aleatorizado: riesgo relativo, riesgo atribuible y número necesario para tratar.

Resumen del estudio epidemiológico. Diseños e interpretación de los resultados del estudio

Pregunta 5:

Se realizó un estudio para evaluar la relación entre el tabaquismo materno durante el embarazo y el bajo peso al nacer. Se entrevistó a un total de 350 madres de bebés con bajo peso al nacer y 400 madres de bebés con peso normal al nacer. De las madres de bebés con bajo peso al nacer, 200 informaron haber fumado durante el embarazo, y 200 de las madres de bebés con peso normal al nacer también informaron de este antecedente. ¿Qué tipo de diseño de estudio fue este? ¿Cuál es la magnitud observada de la asociación entre el tabaquismo y el peso al nacer? ¿Es válida la asociación observada?

¿QUÉ TIPO DE DISEÑO DE ESTUDIO FUE ESTE?

Existen varios diseños de estudios analíticos específicos que se pueden utilizar para evaluar una asociación entre una exposición y una enfermedad; la elección depende de la pregunta de investigación en particular, así como de la logística y la viabilidad. La primera clasificación amplia es si la investigación es un estudio observacional o de intervención, y esto depende del papel del investigador en el estudio. En los estudios observacionales (ya sea de casos y controles o de cohorte), como sugiere el nombre, el investigador observa el curso natural de los acontecimientos en términos de quién está expuesto o no y quién desarrolla el resultado del estudio, sin intervenir de ninguna manera. En un estudio de intervención, los propios investigadores asignan la exposición; no hay autoselección de la exposición por parte de los participantes. Existen dos tipos básicos de estudios observacionales: de casos y controles y de cohortes. Como se muestra en la figura 3, en un estudio de casos y controles, los participantes se seleccionan para el estudio en función de su estado de resultado: un grupo de personas con la enfermedad (casos) se compara con aquellos sin la enfermedad (controles) con respecto a las proporciones en cada grupo con la exposición de interés. Por el contrario, en un estudio de cohortes, los participantes se seleccionan para el estudio en función de la presencia o ausencia de la exposición de interés y se realiza un seguimiento del desarrollo del resultado en cada grupo de exposición.

Un estudio de intervención, también llamado ensayo clínico, es un tipo de estudio de cohortes en el que los participantes se identifican por su estado de exposición y se realiza un seguimiento del desarrollo del resultado, pero la característica distintiva del ensayo es que la exposición de cada participante es asignada por el investigador. En una encuesta transversal, la presencia o ausencia tanto de exposición como de enfermedad se evalúa en el mismo momento, por lo que a menudo resulta difícil distinguir si la exposición precedió al desarrollo de la enfermedad o si la presencia de las etapas preclínicas o tempranas de la enfermedad afectó el nivel de exposición del individuo. En un estudio observacional o de intervención, la secuencia temporal es más claramente identificable.

Figura 3. Descripción general de los diseños de estudios epidemiológicos.

Con base en estas definiciones, la pregunta 5 describe un estudio de casos y controles: se compara a madres de bebés con bajo peso al nacer (casos) con madres de bebés con peso normal al nacer (controles) con respecto a la exposición de interés (tabaquismo materno durante el embarazo). Si se hubiera estudiado la asociación entre el bajo peso al nacer y el tabaquismo materno durante el embarazo clasificando a las mujeres como fumadoras o no fumadoras en el momento de su primera visita prenatal y correlacionando los antecedentes de tabaquismo con el peso al nacer posterior, este habría sido un diseño de estudio de cohorte. No se puede realizar éticamente un estudio de intervención que asigne a los individuos a una exposición dañina como el tabaquismo, pero se podría haber diseñado un ensayo asignando a los participantes a dos enfoques diferentes para dejar de fumar durante el embarazo, por ejemplo, y luego comparando los pesos al nacer posteriores. En un estudio transversal, los investigadores habrían evaluado los pesos al nacer de los recién nacidos y los patrones de tabaquismo de las madres en el mismo momento, es decir, en el momento del nacimiento. Sin embargo, no habría forma de evaluar si el patrón de tabaquismo en el momento del nacimiento reflejaba el patrón de tabaquismo en momentos anteriores del embarazo, que podría tener mayor interés etiológico.

¿CUÁL ES LA MAGNITUD DE LA ASOCIACIÓN ENTRE LA EXPOSICIÓN Y EL RESULTADO?

La figura 4 presenta la tabla 2 × 2 que resume los datos de la pregunta 5.

Figura 4. Medidas de asociación en un estudio de casos y controles: razón de probabilidades y porcentaje de riesgo atribuible.

En un estudio de casos y controles, los participantes se seleccionan en función del resultado en estudio. Por lo tanto, no es posible calcular directamente la tasa de desarrollo del resultado dada la presencia o ausencia de la exposición, y las fórmulas presentadas anteriormente en la Figura 2 para el cálculo del RR y RA en un estudio de cohorte o ensayo aleatorio no se pueden utilizar en un estudio de casos y controles. Sin embargo, se puede hacer una estimación del RR mediante el cálculo de la razón de probabilidades (OR), que es la relación entre las probabilidades de exposición entre los casos y las de los controles (OR = ad/bc). En este caso, la OR sería 1,3, que se interpreta como un RR e indica que las madres que fumaron durante el embarazo tuvieron un riesgo 30% mayor de tener bebés con bajo peso al nacer en comparación con las madres que no fumaron durante el embarazo. Además, debido a que las tasas de incidencia no se pueden calcular directamente, la RA entre los expuestos tampoco se puede calcular en un estudio de casos y controles. Sin embargo, se puede hacer una estimación del RA% entre los expuestos, calculado como: RA% = (OR – 1)/ OR. En el ejemplo, esto sería RA% = (1,3 – 1)/1,3 o 23,1%, lo que indica que si fumar causa bajo peso al nacer, el 23% de los bebés con bajo peso al nacer entre madres fumadoras (las expuestas) sería causado por el hecho de que las madres fumaran, o el 23% de los bebés con bajo peso al nacer nacidos de madres fumadoras podrían evitarse si se eliminara el hábito de fumar de las madres.

¿ES VÁLIDA ESTA ASOCIACIÓN OBSERVADA?

Para determinar si una asociación observada en un estudio es válida, debemos descartar tres explicaciones alternativas para los hallazgos: el papel del azar, el papel del sesgo y el papel de los factores de confusión (Cuadro2).

Cuadro 2. Evaluación de la validez de un estudio epidemiológico

El azar se refiere al hecho de que cualquier asociación observada puede ser causada por la variabilidad del muestreo o la suerte del sorteo porque se extraen inferencias sobre toda la población a partir de los resultados de una muestra. Esto se mide mediante una prueba de significación estadística y su valor P resultante. También se puede juzgar que un resultado surge de un sesgo o un error sistemático en la medición de la asociación entre la exposición y la enfermedad. Y finalmente, los resultados pueden ser causados por factores de confusión, diferencias iniciales entre los grupos que están asociados con la exposición y están asociados independientemente con la enfermedad y en sí mismos podrían ser responsables total o parcialmente de la asociación observada. Estas tres explicaciones deben examinarse siempre antes de poder concluir que la asociación observada en un estudio representa una relación válida o verdadera entre la exposición y la enfermedad.

Pregunta 5a:

Al comparar la diferencia en el porcentaje de tabaquismo materno entre madres con y sin un bebé de bajo peso al nacer, se encuentra que el valor P es 0,2. La interpretación correcta del resultado es:

1. Se rechaza la hipótesis nula.

2. La diferencia es estadísticamente significativa.

3. La diferencia se produjo por casualidad.

4. La diferencia es compatible con la hipótesis nula.

5. La variabilidad del muestreo es una explicación improbable de la diferencia.

El valor P es la probabilidad de que los datos observados, o datos más extremos, se produzcan debido a los efectos del azar únicamente, dado que realmente no hay diferencia o asociación entre los dos grupos (la hipótesis nula). Por convención en la literatura médica, el límite para la significación estadística está en el nivel P = 0,05. Por lo tanto, si P < .05 (es decir, veríamos los resultados que observamos en nuestro estudio solo por casualidad, dada la hipótesis nula de que realmente no hay asociación entre la exposición y la enfermedad, <1 de cada 20 veces), rechazamos la hipótesis nula y concluimos que la diferencia observada es estadísticamente significativa en el nivel de 0.05. Por el contrario, si P ≥ .05 (es decir, veríamos los resultados observados al menos 1 vez de cada 20 dado que no hay asociación entre la exposición y la enfermedad), no podemos rechazar la hipótesis nula y concluimos que la diferencia no es estadísticamente significativa en el nivel de 0.05. El nivel del valor P no significa que la asociación observada sea causada por la casualidad o que la casualidad se descarte; es solo una medida de la probabilidad de que la casualidad sea una explicación de los hallazgos.

Por lo tanto, en la pregunta 5a, dado que el valor P es ≥ 0,05, no se puede rechazar la hipótesis nula, la diferencia no es estadísticamente significativa en el nivel 0,05 y la variación del muestreo no es una explicación improbable de los datos. Esto no significa que la diferencia observada haya sido causada por el azar, pero sí significa que la diferencia es compatible con la hipótesis nula de que no existe asociación (respuesta 4).

Pregunta 5b:

Se sugirió que las madres de bebés con bajo peso al nacer que fumaban tenderían a negar esa actividad debido a sentimientos de culpa. Además, también se observó que las madres de bebés con bajo peso al nacer tendían a ser más jóvenes que las madres de niños con peso normal al nacer, y se sabe que las tasas de tabaquismo son más altas en mujeres más jóvenes en esta población. Estos escenarios serían ejemplos de los efectos de:

1. Azar

2. Sesgo de selección

3. Sesgo de recuerdo

4. Confusión

¿Qué efecto tendría cada uno de estos escenarios en el RR observado: resultaría en una subestimación del RR verdadero, una sobreestimación o sería el mismo que el RR verdadero?

La preocupación de que una madre de un bebé con bajo peso al nacer pueda negar su historial de tabaquismo es un ejemplo de sesgo de recuerdo, donde quienes se ven afectados tienden a recordar sus experiencias de manera diferente a quienes no se ven afectados de manera similar. En este caso, la negación por parte de las madres de niños con bajo peso al nacer de su exposición al tabaco durante el embarazo daría como resultado una subestimación de la verdadera asociación perjudicial entre el tabaco y el peso al nacer. El hecho de que las madres más jóvenes tengan más probabilidades de fumar y que, independientemente del tabaco, las madres más jóvenes tengan más probabilidades de tener bebés con bajo peso al nacer es un ejemplo de una variable de confusión. Si no se controla el efecto de confusión de la edad de la madre, podría parecer que el tabaco es más perjudicial para el peso al nacer del bebé de lo que en realidad puede ser (una sobreestimación del efecto real) debido a la combinación de los efectos del tabaco con la edad joven de la madre, lo que en sí mismo dará como resultado una mayor tasa de bebés con bajo peso al nacer.

En la investigación epidemiológica, la interpretación de los estudios debe seguir siendo siempre una cuestión de juicio basado en toda la evidencia disponible. Sin embargo, este marco de explicaciones alternativas que deben considerarse (evaluando el papel del azar, el sesgo y la confusión) nos permite una aproximación para juzgar la validez de un estudio y así comenzar a considerar el siguiente paso, que es si la asociación observada es de hecho una de causa y efecto.