Palabras clave: MEDICIONES/CIENCIAS DEPORTIVAS
Título: Mediciones de Confiabilidad en la Medicina y Ciencia del Deporte.
Título Original: Measures of Reliability in Sports Medicine and Science.
Autor: Hopkins, Will G1.
1Departamento de Fisiología, Escuela de Ciencias Médicas y Escuela de Educación Física, Universidad de Otago, Dunedin, Nueva Zelanda.
E-mail: will.hopkins@otago.ac.nz
Traductor: Marialina Pérez Alvarez
Fuente: Sports Medicine, Auckland, 2000, Vol.30, No.1, p. 1-15, ref. 20
Resumen: La confiabilidad se refiere a la reproducibilidad de los valores de un test, ensayo, u otra medición en pruebas repetidas aplicadas a un mismo grupo de individuos. Una mayor confiabilidad implica mayor precisión de mediciones únicas y un mejor rastreo de los cambios en las mediciones en escenarios prácticos o investigativos. Las principales mediciones de confiabilidad son la variación aleatoria intra-sujeto, el cambio sistemático en la media, y la correlación de retest. Una forma simple y aplicable de variación intra- sujeto es el error típico (estándar) de medición: la desviación estándar de mediciones repetidas de un individuo. Para muchas mediciones en la medicina y la ciencia deportivas, el error típico se expresa mejor como un coeficiente de variación (porcentaje del promedio). Una forma más limitada y sesgada de variación intra-sujeto la constituye los límites de acuerdo: el alcance probable de 95% del cambio de las mediciones de un individuo entre dos pruebas. Los cambios sistemáticos en el promedio de una medición entre pruebas consecutivas representan efectos como el aprendizaje, la motivación o la fatiga; estos cambios deben ser eliminados de los estimativos de variación intra-sujeto.
Texto completo:
Introducción
Un error de medición provoca una diferencia entre el valor observado de una medición y su valor real; por lo que todo el que trabaje con mediciones debe tener algún conocimiento sobre este tipo de error. En mi experiencia, los dos aspectos más significativos de error de medición son la validez concurrente y la confiabilidad de retest. El primero se refiere al acuerdo entre el valor observado y el valor real o de criterio de una medición; al segundo concierne la reproducibilidad del valor observado cuando la medición se repite. El análisis de validez es complejo por la inevitable presencia del error en el valor de criterio. Es por esto que he limitado este artículo a los errores de medición que ocurren en los estudios de confiabilidad, los cuales tienen un gran impacto en nuestras tentativas de medir los cambios entre mediciones repetidas y conciernen a todo aquel interesado en la medición única.
El estudio de la confiabilidad de una medición es una cuestión sencilla que consiste en la repetición de la medición un número razonable de veces en un número razonable de individuos. El error de medición más significativo a detectar en tal estudio es el error aleatorio o “ruido” en la medición: a menor error, mejor medida. Cómo representar este error y muchas otras mediciones de confiabilidad óptimamente es motivo de debate. Atkinson y Nevill [1] recientemente aportaron un punto de vista útil en su publicación sobre confiabilidad en esta revista; yo, sin embargo, tengo otra perspectiva en cuanto a los méritos relativos a las diferentes mediciones de confiabilidad. En el presente artículo, justifico mi elección de las que considero más apropiadas, exploro los usos de la confiabilidad, y me refiero al diseño y análisis de los estudios en esta área.
Mi enfoque sobre la confiabilidad es aplicable a la mayoría de las variables que tienen números como valores (ej.: 71.3 Kg. para masa corporal). Sin embargo, la confiabilidad de las mediciones que tienen definiciones como valores (ej.: femenino para sexo) no se aborda en este artículo.
1. Mediciones de confiabilidad
Cuando hablamos de confiabilidad, nos referimos a la repetibilidad y reproducibilidad de una medición o variable. Algunas veces aplicaré el popular y errado convencionalismo de referirme a la confiabilidad de una prueba, ensayo o instrumento que proporciona una medición en vez de a la confiabilidad de la medición. También emplearé la palabra “prueba” para nombrar las repeticiones de tests o ensayos.
Los investigadores cuantifican la confiabilidad de varias formas; yo, en este artículo, expongo las únicas mediciones importantes a mi entender: variación intra-sujeto, cambio en la media, y correlación de retest.[2]
1.1 Variación intra- sujeto
La variación intra-sujeto es el tipo de medición de confiabilidad más importante para los investigadores porque afecta la precisión de los estimativos de cambio en la variable de un estudio experimental. Es igualmente significativa para entrenadores, médicos, científicos y otros profesionales que utilizan pruebas para monitorear el desempeño o la salud del personal bajo su supervisión. En estos casos, entre menor sea la variación intra-sujeto, más fácil será la detección o medición de un cambio en el desempeño o la salud del mismo.
Una forma simple de comprender la variación intra-sujeto es considerándola como la variación aleatoria en una medición al examinar un individuo varias veces. Por ejemplo, si los valores de varias pruebas aplicadas a un individuo son 71, 76, 74, 79, 79 y 76, existe una variación aleatoria de pocas unidades entre las pruebas. La desviación estándar (sd) de los valores del individuo es un ejemplo estadístico que encierra la noción de la variabilidad aleatoria de los valores de un individuo en pruebas de ensayo. Esta desviación estándar intra–sujeto se conoce también como error estándar de medición; es decir, representa el error típico en una medición, y de esta forma me referiré a ella en lo adelante.
La variación representada por el error típico tiene diferentes orígenes, el principal es generalmente biológico. Por ejemplo, el máximo rendimiento de un individuo cambia en cada prueba por las variaciones en su condición física y mental. Los instrumentos empleados también pueden interferir en las mediciones, aunque en estudios sencillos de confiabilidad esta fuente tecnológica de error está con frecuencia inevitablemente asociada al error biológico. Cuando se aplican pruebas de ensayo a un individuo con diferentes equipos o por varios operadores pueden surgir errores adicionales, ya sea debido a las diferencias de calibrado o de funcionamiento del equipo o a las facultades de los operadores. Una situación análoga sucede cuando varios jueces evalúan al mismo atleta en diferentes locaciones. En la sección 3.3 me referiré a estos y otros complejos ejemplos de confiabilidad.
En la mayoría de las situaciones en las cuales la confiabilidad es motivo de polémica, nos concierne la simple cuestión de la reproducibilidad de los valores de un individuo obtenidos mediante el mismo equipo y por el mismo operador. Para calcular el error típico en estas situaciones, generalmente usamos varios participantes y pocas pruebas en lugar de un participante y varias pruebas. Por ejemplo, para cinco participantes y dos pruebas, obteniendo los valores mostrados en la tabla I, el error típico es 2.9. En este caso, todavía es posible interpretar el error típico de 2.9 como la variación que esperaríamos notar en cada prueba si alguno de los participantes realizara varias de ellas.
Cuando un grupo de individuos ejecuta dos o más pruebas, siempre ocurre un cambio en el valor promedio entre estas. En el ejemplo anterior, la media en la primera y segunda pruebas es de 68.4 y 69.6 respectivamente, manifestándose un cambio en el promedio de 1.2. Este cambio constituye una medición de confiabilidad sobre la que profundizaré en la próxima sección. Introduzco el concepto aquí para señalar que, para casi todas las aplicaciones de confiabilidad, es importante tener un estimativo del error típico que no se afecte por un cambio en la media. Los valores de los puntajes de cambio o la diferencia en los puntajes para cada individuo aportaron el siguiente estimativo: la división simple de la desviación estándar de las diferencias en el puntaje por √2. En el ejemplo anterior, las diferencias en los puntajes son 5, –2, 6, 0 y –3; la sd de estos valores es 4.1, entonces el error típico es 4.1/√2 =2.9. Este método para calcular el error típico se deriva del hecho de que la varianza de la diferencia de puntajes (Sdiff 2) es igual a la suma de las varianzas que representan el error típico en cada prueba: Sdiff 2 =s2 +s2, so s= Sdiff/√2.
Para muchas mediciones en la medicina y ciencia del deporte, el error típico aumenta en la misma medida que la medición [3]. Por ejemplo, varias pruebas aplicadas a un atleta con un ergómetro pudieran producir una potencia con promedio y error típico de 378.6 ± 4.4W, mientras que un atleta de mejores condiciones físicas bajo las mismas pruebas pudiera originar 453.1±6.1W. Aunque los valores absolutos de los errores típicos tienen sus diferencias, los valores expresados como un porcentaje de sus respectivos promedios son similares: 1.2 y 1.3 %. Esta manifestación del error típico constituye un coeficiente de variación, y es algunas veces más aplicable a cada participante que el propio error típico crudo. Como medición sin dimensiones, permite además la comparación directa de la confiabilidad de las mediciones independientemente de la calibración o la escala. De esta forma, facilita la comparación de confiabilidad entre ergómetros, analizadores, pruebas o grupos de participantes.
Otra medición de variación intra- sujeto que ha comenzado a mostrarse en los estudios de confiabilidad es los límites de acuerdo.
Tabla I. Datos de un estudio de confiabilidad para una variable medida dos veces en cinco participantes.
|
Participante |
Prueba 1 |
Prueba 2 |
|
Kim |
62 |
67 |
|
Lou |
78 |
76 |
|
Pat |
81 |
87 |
|
Sam |
55 |
55 |
|
Vic |
66 |
63 |
Bland y Altman[4], creadores de esta medición, percibieron que la diferencia de puntajes entre las pruebas mostraba buenos pronósticos de la confiabilidad del test. En lugar de usar la sd de la diferencia en los puntajes directamente, ambos investigadores calcularon el alcance dentro del cual la diferencia de puntajes de un individuo disminuiría la mayoría de las veces (95 %). En el caso mencionado de los cinco individuos sometidos a pruebas dobles, los límites de acuerdo de 95% son –10.1 y 12.5. La interpretación de estos límites es la siguiente: sobre la base de las dos pruebas a los cinco participantes, al aplicar el método de test-retest a un sexto individuo, el puntaje en el segundo intento tiene solo una probabilidad entre veinte de ser superior a 12.5 o inferior a 10.1 con respecto a la puntuación alcanzada en la primera prueba. Nótese que los límites en este ejemplo no son completamente simétricos porque los participantes mostraron un desarrollo promedio de 1.2 en la segunda prueba. En este caso, es preferible excluir de cada límite este progreso y expresar los límites como 1.2 ± 11.3.
La relación entre el error típico y los límites de acuerdo es simple: siendo los límites de acuerdo L, la sd intra-sujeto (error típico) s, y la sd de la diferencia de puntajes Sdiff. Para simplificar, ignoraremos cualquier cambio en la media entre las pruebas; según la teoría estadística básica L = ± t0.975, v • Sdiff, donde t0.975, v es el valor de la t estadística con probabilidad acumulativa de 0.975 y v los grados de libertad. Pero, Sdiff =s•√2, entonces: L= ± t0.975, v • S • √2 (Ec.1)
En nuestro ejemplo de cinco participantes, s= 2.9, v= 4 y t0.975,4 = 2.8, por lo que los límites de acuerdo son: ±(2.8)(√2) s= ±3.9s= ±11.3. Cuando un estudio de confiabilidad incluye una muestra extensa, t0.975, v =1.96, entonces L= ±1.96s • √2= ±2.77s, o aproximadamente ± 3 veces el error típico. Esta fórmula es aún válida cuando el error típico se expresa como coeficiente de variación; los límites de acuerdo correspondientes son los límites de porcentaje.
¿Deben los investigadores emplear el error típico o los límites de acuerdo como medición de variación intra-sujeto? Atkinson y Nevill[1] abogaron por los límites de acuerdo; yo creo que el error típico es más eficaz por las siguientes razones:
-
Como ya he demostrado, los valores de los límites de acuerdo dependen del tamaño de muestra del estudio de confiabilidad del cual se obtienen. En términos estadísticos, los límites son sesgados. El sesgo es 25 participantes y dos pruebas, o >13 participantes y tres pruebas), pero este aumenta a 21% para 7 grados de libertad (ocho participantes y dos pruebas). En la mayoría de los estudios de confiabilidad, entre ocho y treinta individuos realizan solo dos pruebas. El sesgo resultante varía del 21 al 5%, es por esto que cualquiera que compare la magnitud de los límites de acuerdo entre los estudios debe considerar el número de grados de libertad entre estos. Esto no sucede con el error típico que posee un valor previsto independiente del tamaño de la muestra. Los defensores de los límites de acuerdo podrían expresar que estos deberían computarse en todos los estudios mediante la multiplicación del error típico por 2.77 en lugar de por el valor exacto derivado de la t estadística con el número adecuado de grados de libertad. Sin embargo, en ese caso, el nivel de confianza de los límites no estaría bien definido.
-
Los límites de acuerdo se aplican al caso especial de la variabilidad de los valores de un individuo entre pares de tests, no siendo así en el caso de un test único (ej. un test de orina para detectar sustancias prohibidas) en el que con una sola prueba, el usuario desea conocer el error en el valor de esa prueba, no el error en la diferencia entre la prueba en cuestión y alguna otra hipotética o futura. Por lo tanto, la caracterización de la variabilidad de una medición única con límites de confianza para obtener las diferencias en el puntaje es incoherente. Los límites de confianza para una medición única serían más apropiados, pero, como medida genérica de variación intra-sujeto, esta estadística tendría el mimo problema de sesgo que los límites de acuerdo.
-
El uso generalizado de los límites de confianza de 95% para representar la precisión del estimativo de los parámetros de la población no constituye una base para el uso del 95% para definir los límites de acuerdo para la diferencia de puntajes en un mismo sujeto. Este por ciento es incluso discutible para los intervalos de confianza, pero no me referiré a ese tema ahora; en cambio, demostraré que 95% es una cifra muy limitada para una decisión final, al menos cuando el participante es un atleta. Vamos a asumir que observamos el desempeño de un corredor con un test de carrera razonablemente eficiente que posee límites de acuerdo de 95% con valor de ± 7.0%. Los defensores de los límites de acuerdo alegarían que un atleta o entrenador deberían estar satisfechos de la ocurrencia de algún suceso beneficioso entre dos pruebas solo cuando exista un incremento en el rendimiento del 7.0% o más. Pero con un cambio visible de +7.0%, existe una probabilidad de 97.5% (diferencia de 39 a 1) de que el desempeño sea mejor, o un 2.5% de que empeore (diferencia de 1 a 39). En mi opinión, este grado de seguridad sobre la incidencia de un cambio en el desempeño es poco realista: un individuo actuaría o debería actuar en menor medida. Por ejemplo, la mitad de los límites de acuerdo parece ser un umbral más acertado para la acción; con un incremento de 3.5%, la probabilidad de la ocurrencia de un verdadero aumento es aún de 84%, o las diferencias de que el desempeño haya realmente mejorado de alrededor de 5 a 1. Para los corredores de élite, incluso los pequeños cambios en el rendimiento son favorables [2], pero se necesitaría un test de mayor confiabilidad para expresar con seguridad que estos eran más que simples coincidencias en esta sencilla situación de test-retest en un mismo atleta.
-
Existe una amplia base teórica para la confiabilidad cuya forma más desarrollada es conocida como Teoría de la Generalizabilidad [5,6]. Las varianzas son la confiabilidad común para todos los cálculos respectivos a esta tesis. Todo aquel que desee realizar cómputos empleando un error típico publicado, solo necesita calcular el cuadrado de este para convertirlo en varianza. El algoritmo para calcular los límites de confianza de la varianza (y por tanto del error típico) también están disponibles. Por otra parte, los límites de acuerdo tienen que convertirse en varianza haciendo factoring del número adecuado de grados de libertad. Esta es una conversión sencilla para estudios de confiabilidad simples; pero para medidas de confiabilidad más complejas que involucran varios componentes de la varianza, el conteo de los grados de libertad puede constituir un reto. Tampoco tengo la certeza de si el factor que convierte el error típico en límites de acuerdo es el apropiado para convertir los límites de confianza del error típico en límites de confianza de los límites de acuerdo al menos para < 25 grados de libertad.
-
¿Cuál es la mejor medición para enseñar o aprender sobre el error de medición? Aunque la diferencia numérica entre ellos consiste solo en un factor de aproximadamente tres, conceptualmente son muy diferentes. En mi opinión, el concepto de error típico se explica a sí mismo, y expresa en lo que consiste el error de medición: la variación en los valores de mediciones repetidas. El concepto de límites de confianza de 95% para la diferencia entre dos mediciones limita la esencia del error de medición a una aplicación: la toma de decisiones en una situación de test-retest. Esta parece la única situación donde los límites de acuerdo tendrían ventaja sobre el error típico, si los límites de confianza de 95% fueran apropiados para las decisiones que afectan un individuo.
Los investigadores y editores deben considerar cuál de estas dos mediciones propondrán en los estudios de confiabilidad, pues la publicación de ambas es probablemente inadecuada por estar estrechamente relacionadas.
1.2 Cambio en la media
Esta medida de confiabilidad consiste simplemente en el cambio en el valor promedio entre dos repeticiones de un test. El cambio consiste en dos componentes: un cambio aleatorio y un cambio sistemático (también conocido como sesgo sistemático).
El cambio aleatorio en la media ocurre por el llamado error de muestreo. Este tipo de cambio se produce únicamente por el error aleatorio de medición, el cual inevitablemente causa una media diferente para cada prueba. Este cambio es menor para las grandes muestras porque los errores aleatorios de cada medición tienden a anularse cuando se añaden más mediciones para calcular la media.
El cambio sistemático es un cambio no aleatorio en el valor entre dos pruebas y se aplica a todos los participantes en el estudio. El ejemplo más claro de este es el efecto de aprendizaje o efecto de entrenamiento: los participantes realizan una segunda prueba con mejores resultados que la primera porque se benefician de la experiencia obtenida en esta. En los tests de desempeño humano que dependen del esfuerzo o la motivación, los colaboradores voluntarios también podrían obtener mejores resultados en la segunda prueba porque desean mejorar su rendimiento. Este puede decaer en la segunda prueba si los sujetos aún sufren de la fatiga del primer intento; o, en una secuencia de pruebas debido a la desmotivación.
El cambio sistemático en la media es una cuestión importante cuando los participantes ejecutan una serie de pruebas como parte de un programa de control. Estos son generalmente monitoreados para determinar los efectos de una intervención (ej: un cambio en la dieta o en el entrenamiento), de ahí la importancia de efectuar la cantidad de pruebas suficiente para reducir al máximo los efectos de aprendizaje u otros cambios sistemáticos antes de intervenir.
De igual manera, los cambios sistemáticos son de menor importancia para los investigadores que realizan un estudio controlado, porque es el cambio relativo en las medias de ambos grupos el que denota la evidencia de un efecto. Sin embargo, la magnitud del cambio sistemático tiende a variar entre los individuos, y estas diferencias individuales provocan que el test sea menos confiable debido al aumento del error típico (ver sección 2.3). Es por esto que los estudiosos deben elegir o diseñar pruebas o instrumentos con efectos de aprendizaje menores, o inducir participantes voluntarios a la práctica (o familiarización) para reducir dichos efectos.
1.3 Correlación de retest
Este tipo de medición representa la estrecha relación entre los valores de una prueba y los de otra en la medida en que nuestra atención va de un individuo a otro. Si cada participante posee un valor idéntico en ambas pruebas, el coeficiente de correlación tiene un valor de uno, y en una representación de los valores de dos pruebas todos los puntos se ubican en línea recta. Cuando el error aleatorio en la medición anula la medición real, el gráfico de los valores de dos pruebas muestra una dispersión aleatoria de los puntos y el coeficiente de correlación se acerca a cero. La correlación también representa la efectiva duplicación del orden de rango de la muestra de una prueba en otra: entre más se acerca la correlación a uno, mejor es la duplicación.
La correlación de retest es evidentemente una medición de confiabilidad eficaz y, al igual que el error de porcentaje típico, tiene la ventaja de no tener dimensiones. Sin embargo, el error en el individuo es la mejor medición[1,2]. La principal dificultad de esta correlación es que su valor es sensible a la heterogeneidad (dispersión) de valores entre los participantes. Este efecto se puede apreciar en un gráfico de puntos con una fuerte correlación entre ellos. Si nos centramos en una submuestra de participantes ubicada en una parte del gráfico, los puntos para estos individuos parecer estar dispersos al azar. En la medida en que se expande el ámbito de la submuestra, la linearidad en la dispersión emerge gradualmente. Este efecto es también evidente a partir de la fórmula que puede derivarse de la definición de correlación de confiabilidad[7]:
r = (varianza pura del sujeto)/(varianza pura del sujeto+varianza del error típico) = (S2-s2)/S2= 1- (s/S)2
(Ec. 2) donde “S” es la desviación estándar inter-sujetos y “s” el error típico.
Si la muestra incluye una amplia gama de participantes, S es mucho mayor que s, entonces, (s/S)2 se acerca a cero y los métodos de correlación a uno. En la medida en que nos centramos en un subgrupo homogéneo, S disminuye hasta igualarse a s en magnitud (i.e cualquier diferencia aparente entre los individuos se debe completamente al error aleatorio de medición); por lo tanto, (s/S)2 se aproxima a uno y la correlación a cero. Nótese que el valor de la correlación de retest cambia conjuntamente con la muestra de participantes, no siendo así con el test o el error típico. Por consiguiente, este último capta la esencia de la confiabilidad del test, al contrario de la correlación de retest. Un resultado importante es que el error típico puede, con frecuencia, estimarse a partir de una muestra no particularmente representativa de una población, o a partir de retest múltiples aplicados a pocos individuos. De cualquier manera, el error típico resultante se aplica periódicamente a la mayoría de los individuos en la población, mientras la correlación de retest solo se aplica a aquellos individuos semejantes a los sondeados para estimar la correlación. Otra consecuencia importante es la imposibilidad de comparar la confiabilidad de dos mediciones basándose únicamente en sus correlaciones de retest: la peor medición (la que posee el mayor error típico) podría tener una mayor correlación de retest si su confiabilidad se determinó a través de una muestra más heterogénea.
Supongamos que usted está satisfecho de que sus participantes se asemejan a los del estudio de confiabilidad publicado, ¿cómo determinaría si la magnitud de dicha correlación es adecuada para sus propósitos? Los autores de estudios de confiabilidad algunas veces definen lo que ellos consideran valores admisibles. Por ejemplo, Kovaleski y sus colegas [8] citaron el clásico artículo de Shrout y Fleiss sobre confiabilidad [9] para respaldar su tesis de que 0.75[8] ó 0.80[10] eran correlaciones clínicamente admisibles. Sin embargo, Shrout y Fleiss [9] no evaluaron la utilidad de las magnitudes de las correlaciones de retest. Atkinson y Neville [1] consideraron que nadie había definido aún magnitudes adecuadas de la correlación de retest para el uso práctico, auque sí mencionaron mi sitio web[11] sobre la estadística en función de la relación entre la correlación de retest y el tamaño de la muestra en estudios experimentales (ver sección 2.2). De hecho, existe otro estudio [12] sobre valores probables de la correlación de validez que se aplica a la confiabilidad, en el cual Manly y yo descubrimos que un test para asignar categorías de admisible-inadmisible requiere una correlación de validez de al menos 0.90 para mantener un índice de error aceptable. La asignación de tres o más categorías demanda un test con validez superior. Si la única fuente de error en un test es el error aleatorio de medición (error típico), es simple demostrar que la correlación de validez es la raíz cuadrada de la confiabilidad de retest. Es por esto que los tests necesitan una confiabilidad de al menos 0.902 =0.81 para ser fehacientes en la toma de decisiones radicales (sí o no) sobre el seguimiento a un individuo, la selección de miembros de un equipo, o para evaluaciones similares basadas en la referencia de criterio. Destaco una vez más que esta regla se aplica solo cuando la sd inter-sujetos de los participantes es similar a la sd del estudio de confiabilidad.
2. Usos de la confiabilidad
Anteriormente me referí a la manera en que la confiabilidad afecta la precisión de mediciones únicas y puntajes de cambio. Todo aquel que tome decisiones basadas en tales mediciones debe tener en cuenta esta precisión. En esta sección, ofrezco una serie de recomendaciones sobre cómo dar seguimiento a un individuo para lograr un cambio real. Otra aplicación práctica de la confiabilidad se expresa en la evaluación de la competición entre diferentes equipos (ver sección 3.3).
En el campo de la investigación, la aplicación de la confiabilidad es importante en la determinación del tamaño de muestra para estudios experimentales; también puede emplearse para establecer la magnitud de las diferencias individuales en la respuesta a los tratamientos en tales estudios. A continuación expongo de manera general algunos procedimientos para estos usos.
2.1 Monitoreo a un individuo
En la sección 1.1 expresé que un cambio observado de igual magnitud que los límites de acuerdo era probablemente muy extenso para emplearse como un umbral para la decisión de la ocurrencia de un cambio real; un umbral mucho más lógico parece ser de alrededor de 1.5 a 2.0 veces el error típico (un poco más que la mitad de los límites de acuerdo) porque las probabilidades correspondientes sobre la ocurrencia de este cambio están entre 6 y 12 a 1. Por ejemplo, si el error típico de medición de un antropometrista para un total de siete pliegues cutáneos es 1.6mm, un cambio de al menos 2 a 3 mm en el pliegue cutáneo de un atleta indicaría la posibilidad de un cambio real. El valor del error típico a usar en estas situaciones debe provenir de un estudio de confiabilidad de corto plazo o concurrente en el cual no haya evidencia de un verdadero cambio en las mediciones de los individuos entre las diferentes pruebas. Por ejemplo, el error típico de medición entre las evaluaciones de pliegues cutáneos obtenidas en un día sería apropiado para tomar decisiones con respecto a los cambios en un individuo en cualquier marco temporal. Por el contrario, el uso del error típico para la determinación del tamaño de muestra y las diferencias individuales en los experimentos debe provenir de un estudio de confiabilidad de igual duración que el experimento.
2.2 Determinación del tamaño de la muestra
La mayoría de los experimentos consisten en un pre-test, un tratamiento, y un post-test. El objetivo de estos estudios es medir el cambio en la media de una variable dependiente entre el pre y post test. El error típico de la variable dependiente representa un ruido que tiende a ocultar cualquier cambio en la media y de esta forma la magnitud del error típico tiene un efecto directo en el tamaño de muestra, el cual es necesario para revelar la evidencia del cambio en la media.
En esta sección, desarrollo varias fórmulas para determinar el tamaño de muestra a partir del error típico o la correlación de retest. Los tamaños de muestra resultantes están frecuentemente fuera del alcance de los recursos o las tendencias de los investigadores; sin embargo, algunos estudios con muestras de menor tamaño originan límites de confianza que pueden resultar útiles. Es por esta razón que dichos estudios deben divulgarse, tal vez como estudios experimentales, para que puedan incluirse en los meta-análisis. También recomiendo un nuevo enfoque para establecer el tamaño de muestra para dar la precisión adecuada para obtener resultados [2]. La precisión se define por los límites de confianza: el ámbito dentro del cual el valor real del resultado tiene una posibilidad de ocurrencia de 95%. Una precisión adecuada indica que el resultado no evidencia un cambio importante en el impacto sobre un participante por encima del alcance de los valores representados por los límites de confianza. Veamos este enfoque en un experimento.
Para un experimento cruzado o de test-retest sin incluir un grupo de control, la teoría de la estadística básica supone un límite de confianza de ± t 0.975,n-1 • s • √2/√n para expresar un cambio en la media, siendo “n” el tamaño de la muestra, “s” el error típico, y “t” la t estadística. Al comparar esta expresión con el valor de los límites de confianza que representan una precisión adecuada, aproximadamente ±d, y al reordenar los valores:
n=2(t • s/d)2 ≈ 8s2 /d2 (Ec.3)
El hecho de que el tamaño de la muestra sea proporcional al cuadrado del error típico en esta ecuación acentúa la importancia de los altos índices de confiabilidad en investigaciones experimentales. Por ejemplo, cuando en un experimento sencillo el error típico del test tiene la misma magnitud que el efecto mínimo aplicable para obtener resultados válidos (s=d), una muestra de alrededor de 8 participantes voluntarios (más precisamente 10) ofrece una precisión apropiada; un test que evidencie dos veces el error típico supone un estudio con aproximadamente cuatro veces más participantes. Esta fórmula se adapta simplemente a los más complejos diseños; por ejemplo, el tamaño de muestra con participantes igualmente divididos entre un grupo experimental y un grupo de control es 4n, 32s2 /d2.
La elección del valor para d depende de la naturaleza de la variable resultante y los participantes. En la investigación de los factores que afectan el desempeño atlético, d representa parcialmente la mitad del error típico del rendimiento de un atleta entre las carreras que realiza [2]. En este caso, las dimensiones de muestra resultante pueden ser muy extensas. Por ejemplo, si el desempeño de la carrera presenta la mitad del error típico como rendimiento en un test de laboratorio, un estudio con un grupo de control requiere un tamaño de muestra n=32s2/((s/2)/2) 2 =512 para delimitar el valor mínimo aceptable del rendimiento.
Cohen [13] argumentó que cuando el interés se centra en los experimentos relacionados con el individuo promedio de una población, el juicio clínico debe guiarse por el alcance de los puntajes parciales en dicha población, y sugirió que el valor mínimo aceptable de d es el 0.2 de la sd inter-sujetos. De esta forma, 0.2S =d =t 0.975,n-1• s• √2/√n, entonces n =50 (t • s/S)2. Pero (s/S)2 = 1– r, donde r es la correlación de retest, entonces:
n =50t2 (1–r) ≈ 200(1–r) (Ec.4)
El tamaño de muestra total para un estudio con un grupo de control es nuevamente 4n, o 800(1–r). El gran efecto de la confiabilidad sobre el tamaño de muestra es una vez más aparente: este se reduce a unos pocos individuos para expresar una correlación de retest casi perfecta mientras el tamaño de muestra se acerca a 200 (800 con un grupo de control) cuando la correlación de retest es cero.
En el estimador de tamaño de muestra anterior, la sd inter-sujetos, S, está conformada por una variación real en el sujeto (ST) y un error de medida independiente (e), entonces S2 = ST2 + e2.
De manera ideal, deberíamos considerar el efecto mínimo válido como una fracción de ST en lugar de S, entonces, este debe expresarse como 0.2 ST =0.2√(S2 – e2). Si “e” es igual al error típico (s), resulta simple demostrar a través de esta ecuación que tamaño de muestra (n) debe incrementarse por un factor de 1/r, de menor influencia en “n” para altas correlaciones de retest; no obstante, n tiende al infinito mientras r tiende a cero.
Mientras el error concurrente, e, puede diferir de la desviación estándar en el sujeto, s. Por ejemplo, en un estudio de un mes de duración para observar el espesor del pliegue cutáneo, “s” es la variación de error entre las mediciones de un individuo realizadas con un mes de separación, y e es la variación de error entre las mediciones de pliegues cutáneos de un individuo durante un tiempo determinado (ej. un día). Entonces, s incluye la variación como resultados de los cambios reales de pliegues cutáneos entre individuos, siendo e simplemente el error presente en la técnica de medición. En esta situación, el tamaño de muestra debe incrementarse por un factor de 1/rc, donde rc es la correlación de retest concurrente, (S2 – e2)/S2.
El uso de estas fórmulas para determinar n en el estudio de un individuo común dentro de una población parece manifestar primacía por la correlación de retest; sin embargo, debo alertar a los investigadores de que el uso de la correlación es justificado solamente si la muestra en el estudio de confiabilidad representa la población en el experimento. Es particularmente erróneo el uso de la correlación de retest basado en una población para calcular n mediante el estudio de una población con una desigual sd inter-sujetos. Más frecuentemente, surgirán dudas sobre la aplicabilidad de la correlación a partir de un estudio de confiabilidad publicado, de forma tal que n se pueda calcular empleando, por ejemplo, la fórmula n = 50(t • s/S)2 »200s2/S2. O si se toma en cuenta la confiabilidad concurrente, entonces n»200s2/S2. Los estudios de confiabilidad ofrecen estimativos de s y e; S surge ya sea a partir de un estudio descriptivo de la población en cuestión o de un estudio de confiabilidad de una muestra representativa de la población.
La confiabilidad tiene el mismo efecto marcado en n en el enfoque tradicional para su evaluación, el cual generalmente se basa en un 80% de seguridad de la observación de la significación estadística (p < 0.05) para el efecto mínimo válido. Los tamaños de muestra resultantes son aproximadamente el doble de aquellos calculados a través de mi método. Eliasziw et al[14] pueden consultarse para saber sobre los tests de desempeño humano.
Las fórmulas anteriores para el cálculo de n se basan en el valor del error típico obtenido en el experimento. Por supuesto, el valor no se conoce hasta que el experimento se ha completado, es por esto que se usa el valor de un estudio de confiabilidad. Si el error típico del experimento difiere del error típico del estudio de confiabilidad, el estimativo de n será incorrecto. Por ejemplo, el tiempo entre las pruebas puede variar entre el estudio de confiabilidad y el experimento, y esta diferencia puede tener un efecto fundamental en el error típico. Otras causas que provocan diferencias en el error típico en el caso anterior incluyen la variedad en los instrumentos, los investigadores en este campo, el entorno, y las características de los participantes. El investigador que desea desarrollar un estudio de confiabilidad para calcular n para luego realizar otro experimento tiene algún control sobre estos factores, pero existen otros dos que están fuera de su dominio. Primeramente, el tratamiento en el experimento puede originar respuestas diversas entre los participantes en el estudio. Estas diferencias individuales muestran un incremento del error en el post-test, aumentando de esta forma el error típico total del experimento. Segundo, la evidencia obtenida de un estudio reciente sugiere que vendar los ojos a los participantes para el tratamiento puede aumentar la variabilidad de las respuestas entre estos, resultando nuevamente en un incremento en el error típico [15]. Cualquier estimativo de n basado en el error típico de la confiabilidad de un estudio debe, por tanto, considerarse mínimo.
2.3 Evaluación de las diferencias individuales
Cuando la respuesta a un tratamiento experimental varía entre los participantes, decimos que existen diferencias individuales en la respuesta. Por ejemplo, un tratamiento puede aumentar la potencia de varios atletas en un 3%, pero la variación en el verdadero rendimiento entre atletas de forma individual puede expresar una sd de 2.5%. En este ejemplo, la mayoría de los atletas mostraría respuestas positivas al tratamiento, otros, pocas o ninguna, y algunos responderían negativamente. Nótese que la cifra 2.5% no representa simplemente la sd de los puntajes de diferencia, los cuales incluirían la variación debido al error típico. Cuando me refiero a las diferencias individuales hablo de la variación del verdadero efecto libre del error típico. Aunque el objetivo fundamental en un experimento es determinar el rendimiento promedio, es evidentemente importante conocer la trascendencia de las diferencias individuales. El análisis de confiabilidad ofrece un método para resolver este problema.
Cuando en un estudio hay presencia de diferencias individuales, los participantes muestran un mayor grado de variabilidad en la diferencia en los puntajes pre y post test. Por lo tanto, como estudio de confiabilidad, el análisis del grupo experimental aporta un estimativo excesivo del error típico mediante las diferencias individuales. La comparación entre este error típico excedido y el error del grupo de control o entre el primero y el error típico resultante del estudio de confiabilidad permite evaluar la magnitud de las diferencias individuales como la sd, sind (2.5% en el ejemplo anterior). Si el experimento está conformado por un pre-test , una intervención y un post-test, el estimativo se deriva inmediatamente de principios estadísticos básicos como: sind = √(2s2expt – 2s2) (Ec. 5), donde sexpt es el error típico excedido en el grupo experimental, y s el error típico en el grupo de control o en un estudio de confiabilidad. Por ejemplo, si el error típico en el grupo experimental es 2% y en el grupo de control 1%, la sd de las diferencias individuales (sind) es √6 =2.5%. La determinación de las diferencias individuales se puede efectuar también mediante un modelo mixto[16], que además puede generar límites de confianza para el estimativo.
Cuando existen diferencias individuales, el proceder más lógico es el reconocimiento de las características de los participantes que predicen las tales diferencias. El estudio adecuado es el análisis de mediciones repetidas de la covarianza con las características pertinentes a los participantes como covariables (ej. edad, género, estado físico, genotipo) [16].
3. Diseño y análisis de estudios de confiabilidad
Un típico estudio de confiabilidad publicado consiste en varias pruebas aplicadas a una muestra de participantes voluntarios con un ítem de equipos y un operador. Los resultados de este estudio simple satisfacen las necesidades de muchos usuarios del test o de los instrumentos, siempre que el estudio tenga una cantidad suficiente de participantes y pruebas, y que el análisis sea adecuado. Primeramente me referiré al diseño y análisis de estos estudios para luego discutir otros más complejos.
3.1 Diseño de estudios simples
La preocupación fundamental en el diseño de cualquier estudio es la precisión adecuada para los estimativos de las mediciones resultantes. En un estudio de confiabilidad, las mediciones resultantes más importantes son el error típico s y el cambio en la media entre pruebas. Las bases para la elección de un tamaño de muestra n que ofrezca una precisión adecuada para el estimativo del cambio sistemático en la media presenta una incógnita: n tiene que ser el mismo que se usaría en un experimento simple para delimitar el efecto mínimo válido de un tratamiento, pero no se puede calcular sin conocer s. Por consiguiente, para llevar a cabo un estudio de confiabilidad, el investigador debe basar n únicamente en la consideración de la precisión para s.
La precisión se define comúnmente por el alcance probable (límites de confianza) para el valor real. La tabla II muestra los factores que intervienen en el cálculo del alcance probable de s en estudios de confiabilidad integrados por varios participantes y pruebas.
Tabla II. Factores para crear el rango probable de 95% del valor real de un error típico a partir del valor observado en un estudio de confiabilidad de varios participantes y pruebasa.
|
Participantes |
Pruebas 2 |
3 |
4 |
5 |
|
7 |
1.94
|
1.55 67 |
1.42 |
1.35 |
|
10 |
1.68 |
1.42 |
1.32 |
1.26 |
|
15 |
1.49 |
1.32 |
1.24 |
1.21 |
|
20 |
1.40 |
1.26 |
1.20 |
1.17 |
|
50 |
1.30
|
1.20 |
1.16 |
1.14 |
|
30
|
1.22 |
1.15 |
1.12 |
1.10 |
a: Multiplicación y división de un error típico observado por el factor para producir los límites de confianza de 95% superiores e inferiores de Tate y Klett[17] para el valor real. Los datos se obtuvieron con una hoja de cálculo[18].
Los estudiosos pueden valerse de esta tabla para elegir una combinación de pruebas y participantes que exprese un alcance probable aceptable para el error típico. La definición “aceptable” depende de la intención con que se use s. Consideremos como ejemplo dos usos comunes de s: el cálculo de n en un experimento, y la comparación entre un nuevo test y un test publicado.
Supongamos que optamos por quince participantes y cuatro exámenes y el error típico observado es 1.0%. En la tabla II, el alcance probable resultante para el error típico real es de 1.0 × 1.24 a 1÷ 1.24, o de 1.24 a 0.81. Por lo tanto, el alcance probable para n en el experimento podría ser sobrevalorado por un factor de 1.54 (= 1.242), o subvalorado por un factor de 0.65 (= 0.812). Estos límites representan una gran diferencia en los recursos requeridos para realizar el estudio, por lo que es necesario concluir que quince participantes y cuatro pruebas son insuficientes para evaluar la confiabilidad. Una cantidad de cincuenta participantes y tres pruebas reduce los factores a 1.32 y 0.76, lo que representa un riesgo más razonable de la pérdida o subvaloración de recursos para el experimento.
Para comparar el error típico de un nuevo test con un error típico publicado para otro test se necesita la precisión de este último, o, preferentemente, n y el número de pruebas en ese estudio. Luego, se calculan los límites de confianza para comparar los errores típicos, usando la proporción F. Para simplificar el estudio, vamos a asumir que lo desarrollamos con el mismo tamaño de muestra y número de pruebas que el estudio publicado y que obtenemos el mismo error típico. Para quince participantes y cuatro pruebas, los límites de confianza para la proporción de los errores típicos son de 0.74 a 1.36. En otras palabras, el error típico para nuestro test pudiera ser tan bajo como el 0.74 de s para el test publicado (lo que haría nuestro test notablemente superior), o tan elevado como el 1.4 del test publicado (lo cual empeoraría nuestro test en gran medida). Una vez más queda demostrado que el estudio con quince participantes y cuatro ensayos es insuficiente. Para cincuenta participantes y tres pruebas, los límites de confianza para la proporción de errores típicos son de 0.80 a 1.22, a partir de los cuales podríamos apenas concluir que no existen grandes diferencias entre ambos tests. Por supuesto, si el nuestro expresara un error típico notablemente superior o inferior que el del test publicado, podríamos llegar a una conclusión más sólida en cuanto a las confiabilidades relativas, posiblemente con menos participantes o pruebas.
Una consideración de mayor importancia sobre el diseño de estudios simples consiste en la cantidad de pruebas prácticas requeridas antes de que s alcance su valor mínimo. Para tratar este problema es necesario determinar un estimativo de cambios en s suficientemente exacto entre pares de pruebas consecutivas.
En réplicas inéditas, he descubierto que un tamaño de muestra de al menos cincuenta participantes, ofrece una precisión adecuada para el estimativo de cambio en el error típico. Es difícil encontrar literatura que muestre estudios de confiabilidad donde cincuenta o más participantes voluntarios realicen tres o más pruebas. Todo esto indica que debemos adoptar la mayoría de los estudios de confiabilidad publicados como estudios experimentales.
3.2 Análisis de estudios simples
El análisis de un estudio de confiabilidad es simple cuando se realizan solo dos pruebas. En estos, el error típico puede derivarse de la desviación estándar de la diferencia en los puntajes para cada individuo, y el cambio en la media no es más que el promedio de la diferencia de puntajes. Para efectuar tres o más pruebas, insto a los investigadores a verificar los efectos de aprendizaje sobre el error típico a través de análisis separados de pares de pruebas consecutivas (pruebas 1+2, pruebas 2+3, etc.). Este procedimiento se puede realizar con una hoja de cálculo [19].
Las pruebas consecutivas con errores típicos similares pueden analizarse conjuntamente para dar lugar a un estimativo único más preciso del error típico para dichas pruebas. Los estimativos de cambios en la media entre este tipo de pruebas serán también un poco más precisos al derivarse de un análisis único de tres o más de las mismas que cuando se derivan de pares de pruebas consecutivas. El análisis adecuado consiste en un modelo lineal con participantes y pruebas como efectos y con cálculos por análisis de varianza o por el método de máxima verosimilitud restringida (REMC). En estos análisis, el error típico es el error residual final independientemente de si los participantes o las pruebas son efectos fijos o aleatorios; no obstante, las pruebas tienen que ser efectos aleatorios para el cálculo de cambios en la media. Un análisis único de varianza donde el efecto es los individuos origina un cálculo incorrecto del error típico: la identidad de la prueba se ignora, entonces, los cambios en la media entre pruebas se añaden al error típico. La estadística resultante tiene un sesgo elevado y es difícil de interpretar porque las contribuciones relativas del error aleatorio y los cambios en la media son desconocidos. Por ejemplo, en algunas réplicas detecté que en dos pruebas y un cambio en la media de igual magnitud que el error típico este método ofrece un error típico excedido por un factor de 1.23. El análisis único de varianza es equivalente al cómputo de una varianza aislada para cada participante a partir de dos o más pruebas; luego se promedian las varianzas y se obtiene la raíz cuadrada. Los autores que han utilizado este método equivalente han cometido, por lo general, el error de promediar las sd de los participantes en lugar de las varianzas. En mis réplicas, el promedio de las sd subvalora el error típico por un factor de 0.82 para dos pruebas y 0.90 para tres; para un mayor número de pruebas, el factor tiende a 1.00. Si el cambio en la media entre dos tests es de igual magnitud que el error típico, ambos errores prácticamente se anulan entre ellos.
Los investigadores, al optar por un método de análisis apropiado, deben verificar sus datos para detectar la presencia de la llamada heterocedasticidad. En el contexto de la confiabilidad o del análisis de mediciones repetidas, la heterocedasticidad se refiere al error típico que, de alguna forma sistemática, varía entre los participantes. Por ejemplo, aquellos con valores más elevados de una variable con frecuencia tienen errores típicos mayores. Los errores típicos para los subgrupos de participantes (masculino vs. femenino, competitivo vs. recreativo, etc.) también pueden presentar diferencias. El análisis de los valores crudos de estas mediciones mediante los métodos estadísticos ordinarios es problemático, pues tales procedimientos tienen su base en la presunción de la uniformidad del error típico para cada participante. Si se incumple esta presunción, los individuos con los mayores errores típicos ejercen una influencia superior sobre el valor de cualquier estadística derivada, el cual puede además ser parcial.
El método genérico para verificar la existencia de heterocedasticidad consiste en el análisis de los gráficos de los valores residuales contra los valores previstos, obtenidos de los análisis de varianza o cualquier otro procedimiento estadístico para calcular las estadísticas de confiabilidad. Los residuales son los valores individuales del error aleatorio de cada participante en cada prueba; de hecho, la sd de los residuales es el error típico. Con el análisis de comparaciones por pares de pruebas (pairwise), un método simple pero equivalente al genérico, se representan gráficamente las diferencias en el puntaje de cada participante en comparación con la media para ambas pruebas [4]; si los residuales de un grupo de participantes son evidentemente diferentes del otro grupo, o si los residuales o las diferencias en los puntajes muestran una tendencia hacia valores mayores para los individuos ubicados en un extremo del gráfico, entonces hay presencia de heterocedasticidad. El procedimiento adecuado para grupos con residuales desiguales es analizar la confiabilidad de estos de forma aislada. La variación en la magnitud de los residuales y la magnitud de la variable pueden excluirse o reducirse mediante una apropiada transformación de esta última. Como se expresó anteriormente, para muchas variables el error típico aumenta en los sujetos con valores elevados de la variable, mientras el error de porcentaje típico tiende a ser similar entre los participantes. Para estas variables, el análisis posterior a la transformación logarítmica trata el problema de la heterocedasticidad y proporciona un estimativo del error de porcentaje típico. Para entender este procedimiento, es necesario figurarse que el error de porcentaje típico es 5%, lo que expresa que el valor observado para cada participante es típicamente (1 ± 0.05) veces el valor promedio para el individuo. Por consiguiente, log(valor observado) = log[(valor promedio)( 1 ± 0.05)] = log(valor promedio) + log(1 ± 0.05) ≈ log(valor promedio) ± 0.05, porque log(1 ± 0.05) ≈ ± 0.05 para logaritmos naturales (base e). Por lo tanto, el error típico en el logaritmo del valor de cada individuo es el mismo (0.05). Se puede obtener el estimativo del error de porcentaje típico de la variable original por la multiplicación del error típico de la medición transformada por logaritmo × 100. Alternativamente, si se emplea 100log(valor observado) como la transformación, los errores en los análisis se convierten automáticamente en porcentajes aproximados, como sucede con las magnitudes de cambios en la media en los análisis anteriores. La aproximación es exacta para los errores o cambios menores que el 5%; pero si estos aumentan, el error de porcentaje típico o cambio sería 100(eerr/100 – 1), donde err es el error típico o cambio en la media obtenido del análisis de 100 × medición transformada por log [20]. Existe también otro modo particular de interpretar los errores >5%. Por ejemplo, si el error es 23%, la variación alrededor del valor promedio es típicamente de 1/1.23 a 1.23 veces el valor promedio, o de 0.81 a 1.23. La variación típica no es 1 ± 0.23 veces el promedio.
Cuando una muestra es homogénea ––todos los individuos tienen valores similares para la medición en cuestión–– el error típico es el mismo para todos los participantes, independientemente de la transformación. En esta situación, la transformación para reducir la heterocedasticidad no constituye un problema. El análisis del log(variable transformada) es un método favorable para la obtención del error de porcentaje típico, aunque un estimativo de igual exactitud se obtiene de la división del error típico (a partir de un análisis de la variable cruda) por el promedio total de todas las pruebas. La transformación por logaritmo adquiere importancia en la medida en que la muestra se vuelve más heterogénea. No obstante, mediante réplicas he descubierto que los estimativos para el error de porcentaje típico a partir de variables crudas y transformadas difieren notablemente (por un factor de 1.04 o más) solo cuando la desviación estándar inter-sujetos es mayor que el 35% de la media. No tengo la certeza de si las variables en la medicina y ciencia del deporte indican tal magnitud de variación inter-sujetos, por lo tanto, los estimados de confiabilidad derivados de variables no transformadas en estudios anteriores probablemente presentan insesgadez. El estimado del error típico para un participante promedio puede no estar sesgado; sin embargo, los individuos ubicados en cualquier extremo de una muestra heterogénea con disímiles errores típicos antes de la transformación logarítmica pueden presentar diferencias en el error de porcentaje aún después de esta. Por ejemplo, con el aumento del espesor del pliegue cutáneo, el error típico crece pero el porcentaje de error decrece (Gore C, comunicación personal). Una solución simple para este tipo de problema es ordenar la muestra por rango, luego dividirla en varios grupos, y por último computar el error típico o el error de porcentaje típico para cada grupo. Alternativamente, es posible encontrar una transformación que proporcione a todos los participantes el mismo error típico para la variable transformada (ausencia de heterocedasticidad).
Para los investigadores interesados en la correlación de retest como medición de confiabilidad, el coeficiente de correlación intraclase derivado de un modelo mixto (el ICC (3,1)[9]) no está sesgado para ningún tamaño de muestra. El uso de la correlación intraclase es además el único enfoque razonable para calcular una correlación promedio entre más de dos pruebas. El coeficiente de correlación de Pearson entre un par de pruebas es un estimativo eficiente de la correlación de retest, aunque su sesgo es ligeramente alto para muestras pequeñas: en réplicas para siete individuos, el sesgo alcanza hasta 0.04 unidades, en dependencia del valor de la correlación.
Los autores de varios estudios de confiabilidad precedentes han considerado solo un coeficiente de correlación como medición de confiabilidad. No obstante, regularmente se puede calcular el error típico o el porcentaje del error más eficaz a partir de sus datos. Mediante el reordenamiento de la relación r = (S2 – s2)/ S2, obtenemos la conocida ecuación: s = S√(1 – r) (Ec. 6), donde s es el error típico, S el promedio de las sd para los participantes en cada prueba, y r es la correlación intraclase. El porcentaje de error típico se obtiene dividiendo el estimativo del error típico resultante entre la media para los participantes en todas las pruebas, y finalmente multiplicando por 100. Esta fórmula da un resultado exacto cuando r es la correlación intraclase; sin embargo, aún para la correlación de Pearson, mis réplicas indican una impresionante exactitud de la fórmula: para muestras de diez o más sujetos el porcentaje de error típico resultante es subestimado por un factor de 0.95 como máximo; pero para muestras de siete participantes, el sesgo puede ser un factor de 0.90.
Todos los estimativos de confiabilidad deben estar asociados a límites de confianza para obtener el valor real. Los programas estadísticos, por lo general, proveen límites de confianza para el cambio en la media, o se puede aplicar la fórmula que aparece en la sección 2.2. Los límites de confianza para el error típico se derivan de la distribución del cuadrado chi. Para pocos grados de libertad, el límite superior tiende a estar sesgado en comparación con el límite inferior. Tate y Klett [17] aportaron
una modificación que reduce el sesgo minimizando la amplitud del intervalo de confianza, aunque en ese momento no es un intervalo de igual probabilidad. Los límites de Tate y Klett se pueden representar convenientemente por un factor único con solo un pequeño cambio (tabla II).
3.3 Estudios complejos
Las secciones anteriores abordaron estudios dirigidos a determinar la confiabilidad de un grupo de individuos mediante un tipo de test o instrumento. Esta sección la dedico a estudios más complejos: la confiabilidad de la media de pruebas múltiples; la comparación de la confiabilidad entre dos grupos de individuos; la comparación entre dos tests protocolares, ítems de instrumentos u operadores de estos; y estudios de confiabilidad de clasificación continua.
Los investigadores algunas veces optimizan la confiabilidad de sus mediciones con el uso de la media de pruebas múltiples: si existe n cantidad de pruebas independientes, el error típico de la media es 1/√n veces el error de una prueba única. Si las pruebas múltiples se efectúan en un período corto (ej: en un día, sin recalibrado de los instrumentos), pero el investigador está interesado en la confiabilidad de la media por un período más largo (ej: varios días, con recalibrado), esta última etapa tiene probabilidades de ser fuente de grandes errores. Por lo tanto, después de cierta cantidad de pruebas múltiples no hay posibilidad de un incremento en la confiabilidad. Para determinar el número de pruebas, los científicos necesitan realizar un estudio de confiabilidad con pruebas múltiples, evaluar la magnitud del error entre estas durante el período más corto (es) y el más prolongado (el), y luego seleccionar n de forma tal que es/√n<
Comparar la confiabilidad de dos grupos de participantes es simple porque cada uno es independiente del otro, entonces, cualquier estudio equivale a dos estudios de confiabilidad separados. Los límites de confianza para la proporción de los errores típicos entre las pruebas correspondientes en ambos grupos pueden derivarse de una proporción F. Los cambios en la media entre pares de pruebas correspondientes se pueden comparar a través de pruebas t impares de las diferencias en los puntajes.
Al comparar la confiabilidad de dos ítems (protocolos, aparatos u operadores) se puede utilizar el procedimiento anterior para dos grupos de individuos examinados por separado. Este método es más eficaz si se realiza con los mismos participantes, pero requiere el análisis de un experto. Cada sujeto ejecuta al menos una prueba con un ítem de instrumentos y al menos dos con el otro, preferiblemente de forma equilibrada y aleatoria. El análisis precisa de un modelo mixto, en el cual el equipamiento y la cantidad de pruebas son efectos fijos y los participantes, un efecto aleatorio; se introduce una variable dummy aleatoria para explicar la varianza extra intra-sujeto asociada a las mediciones realizadas con uno de los ítems. Los límites de confianza para la varianza extra están dirigidos hacia la diferencia en el error típico entre los ítems.
Cuando se concibe un estudio para comparar 2 ítems, es importante considerar que el error típico siempre consta de una variación biológica que se origina a partir de los individuos y de una variación tecnológica que surge de los ítems. Siendo el objetivo del estudio la comparación de la variación tecnológica, es necesario reducir la variación biológica tanto como sea posible porque esta última contribuye a la inexactitud en la comparación de los ítems. Por ejemplo, al comparar la confiabilidad de dos antropometristas es necesario que estos midan los mismos individuos en un mismo día para evitar cualquier variación biológica de importancia. Igualmente, al comparar las mediciones de confiabilidad de la potencia obtenida de dos ergómetros, la muestra del estudio debe estar conformada por atletas porque estos parecen ser más confiables que el resto de los individuos.
El problema de una gradación continua de confiabilidad surge cuando los ítems o instalaciones del mismo tipo de instrumento, elegidos al azar, producen valores diferentes sistemáticamente. Por ejemplo, un ítem puede ofrecer siempre valores altos, otro, valores bajos y así sucesivamente. Algunas de las posibles fuentes de estas diferencias entre ítems incluyen un deficiente control de calidad en la manufactura, diversos efectos medioambientales en una o distintas locaciones, y diferencias de calibrado u otros aspectos relacionados con varios operadores. Cuando se examina varias veces a un participante voluntario con diferentes ítems de instrumentos, esta variación entre ítems se suma a lo que de otra forma sería el error típico para pruebas de ensayo en el mismo aparato, resultando en un valor del error típico total superior.
Este último es el que mejor representa el error típico en una medición única tomada de un ítem de equipo elegido al azar. Además, es el indicado a utilizar en la situación algo inusual de pruebas de ensayo cuando cada una se efectúa con un ítem de equipo distinto.
Los investigadores conscientes del concepto de baja confiabilidad al aplicar pruebas de ensayo a un individuo con diferentes ítems o instalaciones han generalmente empleado la correlación de retest más que el error típico. La correlación adecuada es la intra-clase ICC (2,1) de Shrout y Fleiss [9], y se deriva del llamado modelo aleatorio integral, en el cual la identidad de los participantes y pruebas se consideran efectos aleatorios. Los científicos con frecuencia han aplicado erróneamente este modelo para obtener información a partir de un único ítem de instrumentos. En este caso, la confiabilidad resultante es degradada por el efecto de aprendizaje, no por diferencias constantes en los valores entre ítems de equipos. El único modo efectivo para calcular la confiabilidad entre ítems de instrumentos es realizando pruebas a los participantes con una cantidad suficiente de diferente ítems cuya identidad es un efecto aleatorio, y con la introducción en el análisis de un efecto fijo extra que representa el total de pruebas para expresar los efectos de aprendizaje. El error típico para un sujeto objeto de pruebas de ensayo con ítems desiguales se deriva de la adición de la varianza residual a la varianza para los ítems. Un análisis similar es apropiado cuando varios jueces valoran el desempeño de un mismo grupo de atletas en diversas competiciones. En este caso, la varianza correspondiente a los jueces debe dividirse entre el total de estos antes de su adición a la varianza residual para dar lugar a la varianza de error típico de un atleta entre varias competiciones.
Desafortunadamente, aún el modelo aleatorio dual con la suma de un efecto de prueba fijo no expresaría la posibilidad de la variación de la magnitud del error típico entre ítems de instrumentos o entre jueces. Según tengo entendido, hasta el momento nadie ha desarrollado un marco teórico para cuantificar tal variabilidad continua en el error típico. Esto no forma parte de la teoría de la generalizabilidad, la cual es otra denominación para el modelo mixto y puede lidiar únicamente con el impacto de efectos aleatorios previamente mencionados. Determinar las continuas diferencias en la confiabilidad de sujetos también parece ser un hecho imposible en el presente; entonces, el único modo para establecer la mejor confiabilidad, por ejemplo, con los atletas más rápidos o los operadores más experimentados es dividiendo adecuadamente los participantes u operadores en grupos pequeños, y luego comparando los errores típicos entre estos grupos.
4. Conclusiones
El concepto del error típico en el puntaje de un individuo debe ser un criterio comprensible para la mayoría de los investigadores y profesionales de la medicina y la ciencia del deporte. Creo que este concepto es más fácil de asimilar y aplicar que la noción de los límites de acuerdo. El cambio en el valor de la media de una medición entre varias pruebas es también un componente importante de la confiabilidad y debe mantenerse aislado del error típico. La correlación de retest es un método de uso complejo porque su valor es sensible a la heterogeneidad de la muestra de participantes.
En mi opinión, los valores observados, los límites de confianza del error típico y los cambios en la media son elementos necesarios y suficientes para caracterizar la confiabilidad de una medición. La publicación de estos datos en estudios de confiabilidad desarrollaría de forma importante la comparación de la confiabilidad de los tests, ensayos, o instrumentos. También, una mayor comprensión de la teoría de la confiabilidad por parte de los estudiosos contribuiría a disminuir la incidencia de análisis inadecuados en la literatura pertinente.
La correlación de retest es difícil de interpretar, fundamentalmente porque su valor es sensible a la heterogeneidad de la muestra de participantes. Los usos de la confiabilidad incluyen la toma de decisiones en el monitoreo de los individuos; la comparación de tests o equipos; el cálculo del tamaño de muestra en los experimentos y de la magnitud de las diferencias individuales en la respuesta al tratamiento. Una precisión razonable para los estimativos de confiabilidad requiere aproximadamente de cincuenta participantes en el estudio, y, por lo menos, de tres pruebas. Los estudios con el objetivo de evaluar la variación de la confiabilidad entre tests o equipos requiere diseños y análisis complejos que los investigadores casi nunca llevan a cabo correctamente. Una mayor comprensión de la confiabilidad y de la adopción del error típico como la medición estándar de confiabilidad mejoraría la evaluación de pruebas y equipos en nuestras disciplinas.
Agradecimientos
A Chris Gore, John Hawley, Jenny Keating, Michael McMahon, Louis Passfield y Andy Stewart por su valioso aporte para versiones anteriores de este artículo.
Referencias bibliográficas
1.Atkinson G, Nevill AM. Statistical methods for addressing measurement error (reliability) in variables relevant to sports medicine. Sports Med 1998; 26:217-38.
2.Hopkins WG, Hawley JA, Burke LM. Design and analysis of research on sport performance enhancement. Med Sci Sports. Exerc1999; 31:472-85.
3.Nevill AM, Atkinson G. Assessing agreement between measurements recorded on a ratio scale in sports medicine and sports science. Br J Sports Med 1997; 31:314-8.
4.Bland JM, Altman DG. Statistical methods for assessing agree-ment between two methods of clinical measurement.Lancet 1986 Feb; 8:307-10.
5.Roebroeck ME, Harlaar J, Lankhorst GJ. The application of generalizability theory to reliability assessment: an illustration using isometric force measurements. Phys Ther 1993;73: 386-401.
6.Van Leeuwen DM, Barnes MD, Pase M. Generalizability theory: a unified approach to assessing the dependability (reliability)of measurements in the health sciences.J Outcome Measures 1998; 2:302-25.
7.Bartko JJ. The intraclass correlation coefficient as a measure of reliability. Psych Reports 1966; 19:3-11.
8.Kovaleski JE, Heitman RJ, Gurchiek LR,et al. Reliability and effects of leg dominance on lower extremity isokinetic force and work using the Closed Chain Rider System. J Sport Rehabil 1997; 6:319-26.
9.Shrout PE, Fleiss JL. Intraclass correlations: uses in assessing rate reliability. Psych Bull 1979; 86: 420-8.
10.Kovaleski JE, Ingersoll CD, Knight KL, et al. Reliability of BTE Dynatrac isotonic dynamometer. Isokinet Exerc Sci 1996; 6: 41-3.
11.Hopkins WG. A new view of statistics. Available from: http://sportsci.org/resource/stats [Accessed2000Apr18].
12.Hopkins WG, Manly BFJ. Errors in assigning grades based on tests of finite validity. Res Q Exerc Sport 1989; 60:180-2.
13.Cohen J. Statistical power analysis for the behavioral sciences. 2nd ed. Mahwah (NJ): Lawrence Erlbaum, 1988.
14.Eliasziw M,Young SL,Woodbury MG,et al. Statistical meth-odology for the concurrent assessment of interrater and intrarater reliability: using goniometric measurements as an example. Phys Ther 1994; 74: 777-88.
15.Clark VR, Hopkins WG, Hawley JA, et al. Placebo effect of carbohydrate feedings during a 40-km cycling time trial.Med Sci Sports Exerc.In press.
16.Hopkins WG, Wolfinger RD. Estimating‘individualdifferences’in the response to an experimental treatment [abstract]. Med Sci Sports Exerc 1998; 30(5): S135.
17.Tate RF, Klett GW. Optimal confidence intervals for the varianceof a normal distribution. J Am Statist Assoc 1959; 54: 674-82.
18.Hopkins WG. Generalizing to a population. Available from: http://sportsci.org/resource/stats/generalize.html [Accessed 2000 Apr 18].
19. Hopkins WG. Reliability: calculations and more. Available from http://sportsci.org/resource/stats/relycalc.html [Accessed 2000 Apr18].
20.Schabort EJ, Hopkins WG, Hawley JA, et al. High reliability of performance of well-trained rowers on a rowing ergometer. J Sports Sci 1999; 17: 627-32.
Comentarios recientes