¿Se puede usar el riesgo relativo para medir qué examen médico es más probable que prediga la enfermedad X?

No es tan simple. Las pruebas pueden tener dos tipos de errores: falsos positivos y falsos negativos. La sensibilidad se refiere al número de positivos que están identificados correctamente. La especificidad se refiere a la cantidad de negativos que están identificados correctamente.

Es fácil crear una prueba que prediga una enfermedad con un 100% de sensibilidad. Solo prediga que cada paciente contraerá la enfermedad, y que cada paciente que realmente la reciba se habrá identificado correctamente. Tal prueba es inútil, porque la especificidad es del 0%; todos los que no contraen la enfermedad se identifican incorrectamente.

Entonces, lo primero que debe hacer es definir qué quiere decir con “más probabilidades de predecir”. Esta es en sí misma una tarea no trivial. La compensación entre sensibilidad y especificidad variará dependiendo de la configuración y el uso de la información. Por ejemplo, para una prueba de detección barata que se utilizará solo para determinar quién debe obtener una prueba más sofisticada, la alta sensibilidad es más importante que la alta especificidad.

Ahora a riesgo relativo: RR analiza el riesgo entre dos grupos. Por ejemplo, podría comparar el riesgo de autismo entre las personas que recibieron vacunas infantiles y las que no. Esto ya se ha hecho, y el RR de 1 le dice que el riesgo de desarrollar autismo es el mismo para ambos grupos. No veo cómo lo aplicarías a un examen médico.

Si hubiera varias pruebas que podría utilizar para algo, lo que realmente desea hacer es averiguar cuál le da el mejor poder predictivo, utilizando una herramienta como el índice de sensibilidad para cada prueba.

Respuesta corta: En realidad, no debe usar combinaciones de estadísticas de precisión de la prueba diagnóstica como valor predictivo positivo, sensibilidad o especificidad, odds ratio positivo o negativo para juzgar su prueba.

Respuesta larga: la precisión de la prueba es intrínsecamente bidimensional, no se puede resumir qué tan buena es una prueba en un solo número. Es por eso que generalmente se comparan trazando en 2 dimensiones (gráficos ROC). Estos comparan qué tan bien hace la prueba para identificar a las personas con la enfermedad (es decir, si es sensible ) versus qué tan bien identifica a las personas sin la enfermedad (es decir, si es específica ). Por lo general, hay un intercambio entre los dos.

Esto puede ser un poco desconcertante en abstracto, no sé si la página de Wikipedia La sensibilidad y la especificidad son más útiles o confusas. La mejor forma de familiarizarse con esto es aplicarlo en un contexto práctico.

Para elegir la mejor prueba, debe pensar en cómo desea que funcione bajo diversas condiciones, en particular si desea que sea sensible o específica. Personalmente, me resulta más fácil pensar en términos de valor predictivo positivo y negativo. Estas son las probabilidades de que alguien tenga la enfermedad o no obtenga un resultado positivo o negativo. Sin embargo, para esto necesita saber la prevalencia probable de su enfermedad en la población que está evaluando, que le indicará cuáles son los valores predictivos positivos y negativos.

El riesgo relativo es una medida de cuánto más probable es que una persona expuesta a un factor de riesgo contraiga una enfermedad que una persona que no está expuesta. Como usted sabe, para estimar el riesgo relativo, necesita tener una muestra de estudio que no se haya elegido en función del estado de la enfermedad. Esa es la población debe haber sido seleccionada al azar, no “50 personas con la enfermedad y 50 personas sin”.

Podría suponer que piense en una prueba de detección positiva en una prueba, en cuyo caso el RR estimado de su muestra sería:

RR = p (prueba dada por la enfermedad positiva) / p (prueba dada por la enfermedad negativa)
= valor predictivo positivo / (valor predictivo negativo 1)

El VPP y el VPN son específicos de las poblaciones, ya que dependen de la proporción de personas que realmente padecen la enfermedad. Entonces, absolutamente no puedes compararlos en todos los estudios.

Entonces RR sería una indicación de la calidad de la prueba, pero sería específica para su población (es decir, debe haber utilizado la misma muestra de estudio para comparar cada prueba) y le daría pesos algo arbitrarios al rendimiento de la prueba en condiciones positivas y negativas.