|
EVALUACIÓN
DE LA LITERATURA
Conseguidos los artículos que probablemente responden a
nuestra pregunta, excluimos aquellos que no son relevantes para
la respuesta de la misma, resulta ahora fundamental aplicar los
criterios establecidos (titulo, identificación del autor
y su cargo, lugar del estudio, revista donde se publica, resumen)
con el fin de detectar los artículos que realmente tienen
importancia y seriedad desde el punto de vista científico
(investigación) y descartar aquellos que, aunque aparentemente
intentan dar respuesta a nuestra pregunta, han sido realizados
de tal forma que la respuesta no está basada en una evidencia
contundente. Por ejemplo, si el tamaño de la muestra es
muy pequeño, es bastante probable que el resultado se haya
debido al azar en la elección de la muestra y por tanto
la respuesta no sería una buena evidencia; por el contrario
si la muestra es muy amplia es menos probable que la respuesta
sea producto del azar y por lo tanto el nivel de evidencia será
muchísimo mejor.
De la misma manera los estudios controlados son muchísimo
mejores que los estudios en los que no hay un grupo control y,
obviamente, cuando el grupo control ha recibido como intervención
únicamente placebo la capacidad de encontrar realmente
el efecto del tratamiento en el grupo que recibe el tratamiento
es más evidente.
Por ello podríamos decir a grandes rasgos que un estudio
a gran escala (es decir con un gran número de pacientes),
a largo plazo (es decir durante el tiempo suficiente de seguimiento
para poder evaluar la aparición de efectos colaterales,
efectos adversos, etc.), aleatorizado (es decir en el que la admisión
al grupo tratamiento y al grupo placebo ha sido hecha por azar),
controlado (es decir donde hay un grupo de control), con placebo
(es decir el grupo control fue intervenido mediante placebo) y
doble ciego (es decir ni el médico ni el paciente conocen
si se esta administrando tratamiento o placebo), puede proporcionar
una evidencia mucho más clara y contundente que un estudio
pequeño de seguimiento de casos en el que no hay grupo
control.
En este sentido, diversos grupos internacionales e instituciones
se han puesto mas o menos de acuerdo con respecto a los niveles
de evidencia y a los grados de recomendación deducibles
de los resultados de un estudio con base en el diseño del
mismo. Esto nos facilita muchísimo nuestra tarea pues proporciona
un arma bastante eficaz en el momento de evaluar los artículos
que hemos conseguido mediante nuestra búsqueda.
La primera tabla sobre niveles de evidencia y grados de recomendación
fue creada hace ya mas de veinte años por Dave Sackett
y por Zusanne Fletcher cuando trabajaban para el Canadian Task
Force sobre exámenes periódicos de salud. Ambos
generaron la idea de niveles de evidencia al hacer un rango de
los artículos con respecto a la validez de la evidencia
sobre el valor preventivo de diversas maniobras y adhirieron a
cada uno de ellos un grado de recomendación con el fin
de aconsejar al lector con respecto a qué tan recomendable
resultaba la intervención de acuerdo con los resultados
aportados por el estudio.
A partir de esa época los niveles de evidencia han evolucionado
y se han extendido a tal grado que en la actualidad hay muchos
libros de texto que anuncian en notas al pie de página
o en los márgenes el nivel de evidencia y el grado de recomendación
de cada una de las intervenciones terapeúticas o diagnósticas
o pronósticas que aparecen en el texto. Sin embargo la
orientación de estos niveles de evidencia y estos grados
de recomendación continúan siendo fundamentalmente
de tipo terapeútico o preventivo y no aplicables a otro
tipo de estudios o de interrogantes, razón por la cual
los miembros del centro para la medicina basada en evidencias
del reino unido, en donde trabajan en la actualidad Chris Ball,
Bold Filichs, Brian Hanes, el mismo Dave Sackett y Sharon Straus,
han desarrollado una nueva tabla que combina los grados de recomendación
y los niveles de evidencia tanto con respecto a aspectos de terapeútica
o prevención, como a etiología o riesgo, pronóstico
y diagnóstico (Tabla 1).
En la tabla 1 se explica de manera más precisa cada uno
de estos niveles y las distintas interacciones entre los grados
de recomendación y los niveles de evidencia con modificaciones
específicas para terapia, pronóstico y diagnóstico.
Esta tabla ha sido modificada y traducida de la tabla desarrollada
por el centro para medicina basada en evidencia que el lector
puede consultar en http:cebm.jr2.ox.ac.uk.
|
Tabla
1. Niveles de Eviencia y Grados de Recomendación
|
Grado
de
Recomendación |
Nivel
de
Evidencia |
Estudio
sobre
Terapia/prevención,
Etiología/iatrogenia |
Estudios
sobre
Pronóstico |
Estudios
sobre
Diagnóstico |
|
A |
1a
1b
1c |
Revisión
sistemática (con
hemogeneidad*) de
estudios
controlados
aleatorizados
Estudio controlado
aleatorizado
individual (con
intervalo de
confianza
estrecho**)
Todo
o nada***
|
Revisión
sistemática
(con
hemogenei-
dad*) de
estudios de
cohorte de
inicio o de
guías clínicas
prácticas validadas en
un conjunto
de pruebas
Estudio de
cohorte de
inicio, indivi-
dual, con más
del 80% de
seguimiento
Series de
casos del
todo o
nada*** |
Revisión
sistemática
(con
hemogenei-
dad*) de
estudios diagnósticos
del nivel 1
o guías clí-
nicas
prácticas validadas en
un conjunto
de pruebas
Comparación ciega independien-
te de un es-
pectro apro-
piado de pacientes consecutivos
de todos los
cuales se
tiene tanto
la prueba diagnóstica
como el patrón de oro.
"EsPCon" absolutos y "EsNEx"
absolutos+
|
| B |
2a
2b
3a
3b |
Revisión
sistémica
(con homogenei-
dad*) de estudio
de cohortes
Estudio Individual
de cohortes
(incluso un
estudio
controlado
aleatorizado
de
baja calidad,
es
decir, con
menos
de un 80%
de seguimiento)
Revisión
sistemá-
tica (con
hemoge-
neidad*) de
estu-
dios de casos
y controles
Estudio de
casos y controles
individual
|
Revisión
sistemática
(con homoge-
neidad*) bien
sea de estu-
dios de cohor-
tes retrospec-
tivos o de
grupos control
no tratados
en estudios
controlados
aleatorizados
Estudio de
cohorte re-
trospectivo
o seguimien-
to de pacien-
tes control
no tratados
en un estu-
dio controla-
do aleatori-
zado o una
guía
clínica práctica
no validada
en un con-
junto
de pruebas
|
Revisión
sistemática
(con hemoge-
neidad*) de
estudios diagnósticos
de nivel >
2
Comparación
ciega independiente
pero o bien
en
pacientes
no consecutivos
o confinados
en un
espectro muy
estrecho de
estudios individuales
(o ambos),
todos los
cuales han
sido sometidos
a la prueba
diagnóstica
y al patrón
de oro; o
guías
clínicas prácticas
no validadas
en
un conjunto
de pruebas
Comparación
ciega independiente
de un espec-
tro apropiado,
pero el patrón
de oro no
fue aplicado
a
todos los
pacientes
estudiados
|
| C |
4 |
Series
de casos (y cohortes
y estu-
dios de casos
y controles
de mala calidad++) |
Series
de
casos (y cohortes
pronósticas
de mala calidad+++) |
El
patrón de
oro no fue
aplicado independien-
temente o
de forma cegada
|
| D |
5 |
Juicio
de expertos
sin valoración
crítica
explícita, o basado
en investiga
ciones fisiológicas
o de laboratorio
o
en "primeros
princi-
pios" |
Juicio
de expertos
sin valoración
crítica
explícita,
o basado en
investigacio-
nes fisiológi-
cas o de laboratorio
o
en "primeros
principios" |
Juicio
de expertos
sin valoración
crítica
explí-
cita, o
basado en
investigacio-
nes fisiológi-
cas o de
laboratorio
o en "primeros
principios"
|
1.
Estos niveles de evidencia o grados de recomendación fueron
establecidos en una serie de intercambios entre los miembros del
Centro de Investigaciones para la Medicina Basada en Evidencia
del National Health System de Gran Bretaña (Chris Ball,
Dave Sackett, Bob Phillips Brian Haynes y Sharon Straus)
2. La fuerza de las recomendaciones basadas en este enfoque
se aplican a los pacientes "promedio"; por lo tanto,
pueden requerir algunas modificaciones a la luz de características
biológicas exclusivas de cada paciente individual (riesgo,
sensibilidad, etc.) o a partir de preferencias individuales sobre
el tratamiento que van a recibir.
3. Al aplicar los niveles de evidencia se puede agregar
un signo menos "
" para denotar el nivel a partir del cual no es posible proporcionar
una respuesta concluyente debido a:
- un
solo resultado con una amplitud del intervalo de la confianza
tal que, por ejemplo, un Riesgo Relativo en un Estudio Controlado
Aleatorizado no sea estadísticamente significativo pero
los intervalos de confianza no puedan excluir ventajas clínicas
o iatrogenia importantes.
- una
Revisión Sistemática con heterogeneidad problemática
(y estadísticamente significativa).
- la
evidencia es poco concluyente, y por lo tanto puede generar
solamente recomendaciones del grado D.
*
Por homogeneidad se entiende una revisión sistemática
(metaanálisis)que esté libre de variaciones problemáticas
(heterogeneidad), tanto en la dirección como en el grado,
de los resultados entre los estudios individuales. No todas las
revisiones sistemáticas con heterogeneidad estadísticamente
significativa son necesariamente problemáticas, y no toda
heterogeneidad problemática es necesariamente estadísticamente
significativa. Según lo observado arriba, los estudios
que exhiben heterogeneidad problemática se deben marcar
con "-".
** Ver la nota 3 arriba, sobre como analizar, calificar
y utilizar los estudios con intervalos de confianza muy amplios
*** Se cumple en aquellos casos en los que todos los pacientes
morían antes de que la intervención estuviera disponible
y en la actualidad algunos sobreviven gracias a la intervención
o, también, cuando algunos pacientes morían antes
de que la intervención estuviera disponible y en la actualidad
no muere ninguno gracias a la intervención.
+ Un "EsPCon Absoluto" es un hallazgo diagnóstico
cuya Especificidad es tan alta que un resultado Positivo Confirma
el diagnóstico. Un "EsNEx Absoluto" es un hallazgo
diagnóstico cuya Especificidad es tan alta que un resultado
Negativo Excluye el diagnóstico.
++ Por estudios de cohorte de mala calidad entendemos aquellos
en los que no se pudieron definir claramente los grupos de comparación;
o no se pudieron medir exposiciones y resultados de la misma manera
objetiva (preferiblemente cegada) en individuos expuestos y no
expuestos; o no se pudieron identificar o controlar apropiadamente
variables de confusión conocidas; o no se pudo llevar a
cabo un seguímiento suficientemente largo y completo de
los pacientes. Por estudios de casos y controles de mala calidad
entendemos aquellos en los que no se pudieron definir claramente
los grupos en comparación; o no se pudieron medir exposiciones
y resultados de la misma manera objetiva (preferiblemente cegada)
tanto en los casos como en los controles; o no se pudieron identificar
o controlar apropiadamente variables de confusión conocidas.
+++ Por estudios pronósticos de cohorte de mala
calidad entendemos aquellos en los cuales el muestreo estuvo sesgado
en favor de los pacientes que tenían ya el resultado buscado;
o aquellos en que la medida de resultados fue lograda en <80%
de los pacientes del estudio; o en los que los resultados fueron
determinados de manera no cegada, no objetiva, o no hubo corrección
para los factores de confusión.
Resultados clínicos vs. puntos finales surrogados
Clasificar los estudios conseguidos mediante la búsqueda
sistemática de la literatura biomédica con base
en los niveles de evidencia y en la fuerza de las recomendaciones
permite, como anotábamos, seleccionar no sólo los
mejores estudios que dan respuesta a nuestros interrogantes sino
también seleccionar la fuerza con la que vamos a recomendar
una intervención determinada, en un paciente determinado,
con unas características claramente definidas, para un
problema también precisamente definido.
Queda sin embargo un último punto que debe tenerse en cuenta
al hacer el análisis de la literatura y que escapa de alguna
manera a los análisis realizados mediante niveles de evidencia
o fuerza de la recomendación; me refiero a que, en todo
estudio científico y especialmente en todo experimento
clínico que incluya intervenciones (que pueden ser medicamentos
o procedimientos quirúrgicos, etc.), los puntos finales
definidos como resultados clínicos para un estudio específico
deben ser evaluados desde el punto de vista lógico y desde
el punto de vista relación causa-efecto con el fin de definir
de manera clara y precisa si se trata de verdaderos resultados
clínicos o si se trata solamente de lo que en la jerga
epidemiológica y estadística se conoce como puntos
finales surrogados. El que un estudio esté dirigido a evaluar
el papel de una intervención con base en un punto final
surrogado no lo invalida, pero sí hace que su aplicabilidad
práctica a los problemas clínicos de nuestros pacientes
sea muy pobre y, además, le resta fuerza de recomendación
así el nivel de evidencia haya sido óptimo.
La diferencia entre resultado clínico final y punto final
surrogado se entenderá mucho mejor con un ejemplo. Para
el caso, volvamos al paciente que nos ha acompañado en
esta revisión y supongamos que, después de haber
formulado la pregunta y haber realizado la búsqueda y haber
analizado la literatura, nos encontramos frente al dilema de establecer
la pertinencia y la relevancia de uno de los estudios que consideramos
relevantes durante la búsqueda; se trata de un estudio
realizado hace ya veinte años por la OMS para evaluar el
tratamiento de personas con dislipidemia mediante clofibrato.
Desde el punto de vista del nivel de la evidencia se trata un
estudio doble ciego, a gran escala, aleatorizado, controlado,
etc., razón por la cual estaríamos tentados a adscribirle
un nivel de evidencia 1b y, en consecuencia, una fuerza de recomendación
de tipo A. Esto significaría que, de acuerdo con la pregunta
que habiamos formulado para nuestro paciente, el estudio de la
OMS daría una respuesta concreta que dice mas o menos así:
"en los pacientes de edad media de la vida, de sexo masculino,
con antecedentes familiares de enfermedad coronaria y con colesterol
ligeramente elevado, el tratamiento con clofibrato es mejor que
el tratamiento solamente con dieta o modificaciones en las condiciones
de vida en lo que respecta a la morbimortalidad por enfermedad
coronaria". Sin embargo, si analizamos más a fondo
el estudio de la OMS, nos daremos cuenta que el resultado clínico
definido como punto final para el estudio no fue la morbimortalidad
global sino solamente la morbimortalidad por enfermedad coronaria.
Es decir, en lugar de un verdadero resultado clínico (morbimortalidad
global) se estaba apelando a un punto final surrogado (morbimortalidad
por enfermedad coronaria). Aunque resulta indudable que la mortalidad
global va a depender en parte de la morbimortalidad por enfermedad
coronaria esta no es la única causa de mortalidad. Si se
analizan los resultados a fondo, se verá que la mortalidad
global fue mayor en el grupo que recibió clofibrato que
en el grupo que recibió placebo a pesar de que la morbimortalidad
por enfermedad coronaria fue menor en el grupo que recibió
clofibrato con respecto al grupo que recibió placebo. Estos
resultados aparentemente paradójicos se explican porque
el clofibrato estaba induciendo enfermedad biliar y hepática
y complicaciones secundarias a cirugía de vías biliares,
circunstancias que fueron responsables del aumento en las cifras
de morbilidad y mortalidad globales. Lo que pretendíamos
hacer con la mano (disminuir la morbimortalidad global al disminuir
la morbimortalidad coronaria mediante la intervención con
clofibrato) lo estábamos borrando con el codo (al aumentar
la morbimortalidad global por complicaciones secundarias al tratamiento).
Este ejemplo nos demuestra a las claras que es fundamental tener
siempre en mente, al analizar la literatura biomédica,
si se están tomando seriamente o no en cuenta los resultados
finales de los estudios.
|
|
|
Figura
1. Relación entre mortalidad y frecuencia de
extrasístoles ventriculares. Moss AJ. Prog Cardiovasc
Dis 29:396, 1987. ESV/h = extrasístoles ventriculares
cada hora
|
|
|
|
Figura
2. Morbimortalidad cardiovascular en pacientes con extrasistolia
ventricular con y sin tratamiento. Echt DS, N Engl J Med
324:784,1991.
|
Tal
vez el ejemplo más contundente con respecto a este tipo
de errores sea el estudio realizado hace unos diez años
con respecto a un nuevo grupo de medicamentos antiarrítmicos
que incluso estuvieron a punto de inundar el mercado durante algún
tiempo. Me refiero a los medicamentos encainida y flecainida (que
siguen siendo muy buenos antiarrítmicos pero ahora con
indicaciones muy precisas y contraindicaciones muy claras también).
Con base en algunos estudios previos se había establecido
que existía una relación directa entre la mortalidad
y la frecuencia de extrasístoles ventriculares. Como se
puede ver en la Figura 1, la posibilidad de morir aumenta exageradamente
a partir de 10 extrasístoles ventriculares por hora. Con
base en esto se estableció como criterio final de los estudios
con encainida y flecainida conseguir una disminución en
la frecuencia de extrasístoles ventriculares aunque por
debajo de diez por hora. Obviamente al utilizar estos excelentes
antiarrítmicos el pretendido resultado clínico fue
alcanzado y se dio marcha libre a la venta pública de este
tipo de medicamentos. Sin embargo, lo que queríamos hacer
al dar los antiarrítmicos era disminuir la mortalidad (verdadero
resultado clínico final) y, en realidad no nos importaba
mucho mediante que mecanismos lo consiguiéramos si disminuyendo
o no la frecuencia de extrasístoles ventriculares, teníamos
la hipótesis de que al disminuir la frecuencia de extrasístoles
ventriculares también iba a disminuir la mortalidad. El
error en el diseño del estudio consistió en crear
un punto final surrogado (disminuir las extrasístoles por
debajo de 10 por hora) y dedicar todo el estudio a demostrar que
el medicamento era capaz de lograrlo, cuando en realidad el resultado
clínico final debió haber sido la disminución
en la morbimortalidad. Cuando, después de algún
tiempo, se evaluó (¡por fin!) el verdadero resultado
clínico final (morbimortalidad), la realidad fue muy otra,
porque la morbimortalidad cardiovascular en los pacientes con
extrasistolia ventricular con y sin tratamiento fue muy diferente
pero a favor del placebo en el sentido de que se morían
más personas que recibían el tratamiento, así
tuvieran menor número de extrasístoles ventriculares,
como consecuencia de otras arritmias (en especial "Torsades
de Pointes"). Este resultado se puede ver claramente en la
Figura 2 e ilustra a la perfección el tipo de problemas
al que nos vemos enfrentados como consecuencia de un diseño
erróneo en el estudio clínico: aceptar un punto
final surrogado como si fuera un verdadero resultado clínico.
Pueden existir otras posibilidades con respecto a alteraciones
derivadas de establecer de manera errónea puntos surrogados
en lugar de resultados clínicos finales, como por ejemplo
cuando los puntos surrogados no siguen la vía causal del
proceso patológico y nos dedicamos a tratar el punto final
surrogado o cuando la intervención en el estudio afecta
solamente una de muchas posibles vías causales y nos dedicamos
a medir solo el punto final surrogado o cuando el punto final
surrogado estudiado no se ve afectado por los efectos de la intervención
o, al contrario, cuando la intervención tiene efectos independientes
en la vía patógena de la enfermedad que pueden incluir
o no el punto final surrogado.
Conclusiones
La medicina basada en evidencia es una excelente arma para el
médico clínico pues busca aplicar la mejor evidencia
disponible a partir de investigaciones con resultados incuestionables
al tratamiento de problemas específicos en pacientes concretos
en situaciones clínicas diversas. Hacer medicina basada
en evidencia no es difícil, es simplemente la mejor forma
de seguir haciendo buena medicina.
Bibliografía
1. Canadian Task Force on the Periodic Health Examination: The
periodic health examination. CMAJ 1979; 121: 1193-1254.
2. Sackett DL. Rules of evidence and clinical recommendations
on use of use of antithrombotic agents. Chest 1986 Feb; 89 (2
suppl.):2S-3S.
3. Cook DJ, Guyatt GH, Laupacis A, Sackett DL, Goldberg RJ. Clinical
recommendations using levels of evidence for antithrombotic agents.
Chest 1995 Oct; 108(4 Suppl): 227S-230S.
4. Yusuf S, Cairns JA, Camm AJ, Fallen EL, Gersh BJ. Evidence-Based
Cardiology. London: BMJ Publishing Group, 1998
5. Moss AJ. Prog Cardiovasc Dis 1987; 29: 396.
6. Echt DS. N Eng J Med 1991; 324:784.
7. CAST investigators. Preliminary report: effect of encainide
and flecainide on mortality in a randomized trial of arrhythmia
supression after myocardial infarction. N Eng J Med 1989; 321:
406-412.
8. Comittee of principal Investigators. The W.H.O. cooperative
trial on primary prevention of ischemic heart disease with clofibrate
to lower serum cholesterol: mortality follow-up. Lancet 1980;
ii: 279-385.
|