Rutas de mejoramiento e informes de diagnóstico cognitivo con el método rule space


Abstract

Dado que el desarrollo de modelos de diagnóstico cognitivo ha aumentado en los últimos años, se hace cada vez más necesaria una forma efectiva de comunicar los resultados a diferentes audiencias. Por ello, este artículo expone el uso del método rule space en el diagnóstico cognitivo de las estructuras de conocimiento y habilidades en Matemática, evidenciadas en una muestra representativa de estudiantes costarricenses que respondieron la Prueba Nacional de Bachillerato en esa asignatura. Con el fin de presentar los análisis propios del método psicométrico-cognitivo escogido, se reportan evidencias empíricas de la validez de la prueba, así como de la elaboración de la matriz de incidencia y la tasa de clasificación de estudiantes. Se concluye que personas con la misma puntuación en la prueba presentan diferencias en sus probabilidades de dominio de atributos, razón por la cual se necesitan informes tanto individuales como colectivos que tomen en cuenta las diferencias en cuanto a dominio de atributos cognitivos, y con ello, elaborar estrategias enfocadas en el fortalecimiento de habilidades. Asimismo, que la información de carácter diagnóstico que se obtiene de tales modelos debe resultar comprensible e interpretable en términos de descripciones de atributos cognitivos, para generar rutas de aprendizaje según las probabilidades de dominio de habilidades que evidencien fortalezas y debilidades en el estudiantado, y con ello, proponer acciones educativas remediales.


Tendo em vista que o desenvolvimento de modelos de diagnóstico cognitivo tem aumentado nos últimos anos, faz-se cada vez mais necessária uma forma efetiva de comunicar os resultados a diferentes públicos. Por isso, este artigo expõe o uso do método rule space no diagnóstico cognitivo das estruturas de conhecimento e habilidades em matemática, evidenciadas numa amostra representativa de estudantes costa-riquenses que responderam à Prova Nacional de Ensino Médio nessa disciplina. A fim de apresentar as análises próprias do método psicométrico-cognitivo escolhido, relatam-se evidências empíricas da validade da prova, bem como da elaboração da matriz de incidência e a taxa de classificação de estudantes. Conclui-se que pessoas com a mesma pontuação na prova apresentam diferenças em suas probabilidades de domínio de atributos, razão pela qual se necessitam relatórios tanto individuais quanto coletivos que considerem as diferenças quanto a domínio de atributos cognitivos e, com isso, elaborar estratégias focadas no fortalecimento de habilidades. Além disso, que a informação de caráter diagnóstico que se obtém desses modelos deve resultar compreensível e interpretável segundo as probabilidades de domínio de habilidades que evidenciem fortalezas e debilidades nos estudantes e, assim, propor ações educativas alternativas de reforço.


Given that the development of models of cognitive diagnosis has expanded in recent years, there is increasingly a need to communicate the results to different publics in an effective way. Hence, this article sets forth the use of the “rule space” model in the cognitive diagnosis of structures of knowledge and skills in mathematics, shown in a representative sample of students in Costa Rica who took the National High School Diploma Test in that subject. With the aim of presenting the analyses pertaining to the chosen cognitive psychometric method, the article reports on empirical evidence for the validity of the test, as well as the formulation of the incidence matrix and the classification rate of the students. It concludes that people with the same scores in the test show differences in their probabilities in the mastery of attributes, which is why there is a need for both individual and collective reports which take the differences in the mastery of cognitive attributes into account, so they can be employed to create strategies focused on the strengthening of skills. And likewise, ensure that the information of a diagnostic nature which is obtained from such models is comprehensible and easy to interpret in terms of descriptions of cognitive attributes, in order to trace out learning routes, according to the probabilities of the mastery of skills which reveal the strengths and weaknesses of the student body, and in turn, come up with remedial educational measures.


INTRODUCCIÓN

Los modelos de diagnóstico cognitivo identifican perfiles de dominio de atributos, es decir, permiten la clasificación de personas a partir de sus patrones observados de respuestas a pruebas en campos específicos de conocimiento. Para ello, hacen corresponder esas respuestas con los atributos cognitivos que se han asumido que permiten acertar los ítems de dichas pruebas.

El reporte de los perfiles de dominio de habilidades propio de los modelos de diagnóstico cognitivo ha recibido parcial atención en las últimas décadas en contextos latinoamericanos (Artavia-Medrano, 2014). Esto puede deberse a que la realización de pruebas estandarizadas se adoptó en forma relativamente abrupta, como parte de programas de reforma educativa o como un componente de marcos institucionales y organizacionales (Ferrer, 2006), así como por la arraigada utilización de modelos psicométricos tradicionales como la teoría clásica de los test o la teoría de respuesta de los ítems (TRI) en la interpretación de pruebas educativas de gran escala.

No obstante, de acuerdo con Artavia-Medrano y Larreamendy-Joerns (2012):

En los últimos años, ha existido una creciente demanda para que las pruebas estandarizadas de rendimiento académico brinden información de mayor utilidad para los procesos educativos, manteniendo las ventajas de su proceso técnico de elaboración, y agregando información diagnóstica cuyo objetivo sea mejorar las áreas evidenciadas como deficientes por los estudiantes. (p. 599)

En respuesta a ello, trabajos pioneros como los de Tatsuoka (1983, 1990) propusieron la integración entre la TRI y la clasificación de patrones de respuestas erróneas, hasta llegar a la creación de modelos de diagnóstico en los que se valoren las estructuras específicas de conocimiento y habilidades de procesamiento de estudiantes, y con ello brindar información relevante acerca de sus fortalezas y debilidades, para el mejoramiento de sus oportunidades de aprendizaje. Entre ellos, encontramos el modelo rule space (Tatsuoka, 1983, 2009), el método de jerarquía de atributos (Leighton, Gierl y Hunka, 2002, 2004), el diseño centrado en evidencias (Mislevy, Steinberg y Almond, 2003), o bien, el modelo G-DINA (de la Torre, 2011).

A pesar del creciente desarrollo de los modelos de diagnóstico cognitivo, su impacto en la evaluación de los aprendizajes ha sido lento. La integración entre psicología cognitiva y medición educativa para enriquecer los procesos de enseñanza y aprendizaje ha tenido que esperar por un cambio estructural y político. La sociedad, en general, y la educación, en particular, claman porque el rendimiento en pruebas de gran escala brinde información que guíe el aprendizaje, que mejore la enseñanza y que permita una toma de decisiones más allá del reporte de la puntuación obtenida en una prueba, puntuaciones basadas en áreas de contenido específico o, incluso, el ordenamiento [ranking] de centros educativos a partir de las calificaciones obtenidas en esas pruebas.

El énfasis en la comprensión de la psicología que subyace al rendimiento en una prueba del ámbito académico está acompañado de una comunicación efectiva del detalle y la complejidad que los modelos de diagnóstico cognitivo ofrecen a la evaluación de los aprendizajes.

El presente artículo se basa en dos preguntas generadoras: 1) ¿cómo diseñar rutas de mejoramiento que permitan evidenciar el logro de habilidades medidas en una prueba escolar de Matemática?, y 2) ¿cómo elaborar informes de resultados a partir del dominio de los atributos subyacentes a la prueba, y con ello, proponer acciones educativas remediales? Para responder ambas preguntas se han tomado como base el método rule space y una base de datos con las respuestas a los ítems de una prueba de Matemática de conclusión de estudios secundarios para estudiantes costarricenses.

El documento está organizado en cinco secciones. En la primera de ellas se exponen la necesidad de los modelos de diagnóstico cognitivo y, en particular, los fundamentos conceptuales del método rule space, tomado como referente teórico y metodológico para el estudio. En la segunda sección se explica la metodología empleada en el estudio base. En la tercera se exponen los resultados, en los que se brindan evidencias de la validez de la matriz de incidencia, así como ejemplos de rutas de mejoramiento y modelos de informes de resultados basados en las probabilidades de dominio de atributos. El artículo finaliza con una discusión de resultados y de conclusiones generales.

REFERENTES CONCEPTUALES

Uno de los propósitos de las pruebas en el ámbito educativo es brindar información acerca de los logros de aprendizaje del estudiantado. No obstante, de acuerdo con Artavia-Medrano (2015), “actualmente la mayoría de las pruebas psicológicas y educativas se continúan basando en modelos psicométricos tradicionales, los cuales tienen una limitada conexión con los procesos, las estrategias y las estructuras de conocimiento involucradas en la resolución de ítems” (p. 64).

En respuesta a los enfoques tradicionales para la elaboración de pruebas y la interpretación de los resultados que ellas generan, se han desarrollado diversas propuestas que integran principios de psicología cognitiva con modelos psicométricos; tal es el caso del modelo logístico lineal de Fischer (1973, 1997), el modelo multicomponente de rasgo latente de Embretson (1997), el método rule space (Tatsuoka, 1983, 1990, 2009), los modelos DINA y NIDA (de la Torre y Douglas, 2004; Junker y Sijstma, 2001), el diseño centrado en evidencias de Mislevy, Steinberg y Almond (2003), así como el modelo G-DINA (de la Torre, 2011).

Estos modelos, y otros que se han desarrollado en la literatura técnica, pretenden superar las limitaciones de los enfoques tradicionales empleados en la construcción e interpretación de pruebas educativas de gran escala, los cuales brindan información de mínima relevancia en cuanto al desempeño estudiantil, y, por ello, su impacto en el mejoramiento de experiencias y logros de aprendizaje es sumamente reducido.

En cuanto a los modelos no tradicionales, Roberts y Gierl (2010) indican que todos estos modelos comparten una característica común: los resultados de un complejo análisis brindan un perfil de puntuaciones que se basa en las habilidades cognitivas medidas en una prueba. En contraste con el reporte de una puntuación en una escala global o de puntuaciones basadas en contenidos, las evaluaciones de diagnóstico cognitivo producen puntuaciones en forma de probabilidades de dominio de atributos. Estas probabilidades sirven como puntuaciones que son sustancialmente significativas porque las interpretaciones y las inferencias acerca del desempeño estudiantil se hacen con referencia a las habilidades medidas en la prueba. Los perfiles de diagnóstico de habilidades se pueden usar para apoyar la enseñanza y el aprendizaje (p. 29).

A continuación se expondrán brevemente las etapas del método rule space, el cual fue diseñado para inferir el dominio individual de habilidades latentes y conocimiento que se requieren para resolver correctamente un conjunto de ítems, a partir de las respuestas dadas a ellos. Este método se ha empleado tanto por ser uno de los pioneros en el campo del diagnóstico cognitivo como por su uso extendido en diversos informes técnicos. Tomando esto como norte, se pretende enfrentar uno de los retos más grandes en el desarrollo de los modelos de diagnóstico en el campo educativo: diseñar reportes que integren información de carácter técnico con las necesidades de la comunidad educativa, de tal modo que el diagnóstico resulte comprensible aun para audiencias que no posean los conocimientos psicométricos y psicológicos que son realmente sofisticados y que conforman el núcleo de los modelos de diagnóstico cognitivo.

MÉTODO RULE SPACE

El método rule space (Tatsuoka, 1983, 1985, 1990, 1995, 2009) utiliza las respuestas de las personas a los ítems de una prueba, con el fin de poder formular inferencias acerca de su capacidad en el conocimiento, la comprensión, las habilidades y los procesos involucrados en su resolución y que se conocen como atributos (Tatsuoka, 1990). El método rule space caracteriza estos atributos combinando un análisis cognitivo de tareas de un conjunto de ítems y procedimientos psicométricos.

Según Tatsuoka (2009),

[…] el método rule space transforma un conjunto de datos de estudiantes compuesto por puntuaciones de ítems en un conjunto de datos constituido por probabilidades de dominio de atributos. El beneficio de este enfoque es que permite el diagnóstico del rendimiento de tales estudiantes en una prueba en términos de habilidades de procesamiento y de conocimiento del contenido. (p. 9)

El método rule space se compone de varias etapas. La primera de ellas es establecer los atributos involucrados en la resolución de los ítems que componen una prueba, para lo cual se recurre a diversos procedimientos, tales como revisión de literatura previa, análisis racional de tareas, análisis de protocolos verbales y consulta a personas especialistas en el dominio específico de contenidos. Con los atributos identificados por ítem se genera la matriz de incidencia o matriz Q (Tatsuoka, 1983, 1990, 2009), compuesta por unos y ceros (los cuales indican la presencia o no del atributo en el ítem, respectivamente).

La segunda etapa del método es la generación de “estados de conocimiento”, los cuales son vectores compuestos por unos y ceros que indican el dominio o no de los atributos requeridos. La cantidad posible de estados de conocimiento está dada por 2k, donde k es la cantidad de atributos que componen la matriz Q. En particular, el rule space es un método no compensatorio, es decir, se parte del supuesto básico de que una persona acierta un ítem si y solo si domina todos los atributos involucrados en la resolución de dicho ítem.

La tercera etapa del rule space consiste en ubicar, en un espacio cartesiano bidimensional, pares ordenados cuyas componentes son el nivel de aptitud latente propio del modelo de teoría de respuesta a los ítems seleccionado (θ), y la otra dimensión es el índice extendido de precaución (ξ); este último es un valor que mide qué tan atípico puede resultar un patrón de respuestas, por ejemplo, la tendencia que muestra una persona a acertar ítems difíciles y a fallar los ítems fáciles en la misma prueba. Se grafican tanto los puntos correspondientes a los posibles estados de conocimiento como los asociados a las personas según sus respuestas a los ítems.

Finalmente, en la cuarta etapa, las personas se clasifican o ubican en un estado de conocimiento determinado, para lo que se calcula la distancia de Mahalanobis (D2). Si el cálculo del valor de D2 es menor que el valor crítico de su distribución, entonces el patrón de dominio de atributos (estado de conocimiento) asociado al patrón ideal de respuesta se acepta para clasificar el patrón de respuestas de una persona.

El dominio de atributos para cada persona se expresa en forma probabilística mediante una combinación de los estados de conocimiento generados según las especificaciones de la matriz Q ponderados con las probabilidades posteriores calculadas con reglas bayesianas de decisión; a esto se le conoce como probabilidad de dominio de atributos. Una vez que estos vectores de probabilidad se calculan, se pueden inferir características de diagnóstico cognitivo tanto a nivel grupal como individual, y con ello finaliza el procedimiento.

MÉTODO

Población y muestra

Los datos provienen de la Prueba de Bachillerato en Matemática aplicada en noviembre del 2006. La cantidad de personas que presentaron el examen fue de 21.488, provenientes de 704 centros educativos costarricenses. Por los intereses en que se basa el estudio que se publica en este artículo, se consideraron únicamente estudiantes que provinieron de colegios académicos públicos y diurnos. Por ello, y por las características de la base de datos con la que se contó para desarrollar la investigación, se utilizó muestreo aleatorio simple y se calculó un tamaño de muestra para estimar una proporción con el 95% de confianza; se utilizó el valor 0,5 como desviación estándar máxima en el caso de una proporción, y 0,05 como error de muestreo máximo permisible, con lo que se obtuvo n = 384.

Instrumento

La Prueba de Bachillerato en Matemática se elabora en la Dirección de Gestión y Evaluación de la Calidad del Ministerio de Educación Pública de Costa Rica (anteriormente llamada División de Control de Calidad y Macroevaluación del Sistema Educativo). Es una prueba de papel y lápiz conformada por sesenta ítems de selección única, en los cuales se hace una medición de los objetivos y contenidos propuestos en una tabla de especificaciones. La cantidad de ítems asociada a cada tema, objetivo y contenido fue el resultado de una consulta masiva al sector docente de todo el país, a quienes se les pidió valorar tanto la importancia de la temática en cuestión como la congruencia entre el tiempo dedicado en las aulas al estudio de los temas y la aparición de estos en el examen.

La prueba en estudio es de carácter censal y de altas consecuencias para la población estudiantil, en particular; constituye el 60% del cálculo de la nota que define su condición final para egresar de la educación secundaria y, eventualmente, continuar con su formación universitaria. En cuanto a los temas medidos en la prueba y el peso porcentual con que aparecen, se tiene: álgebra (20%), funciones (27%), función exponencial y función logarítmica (18%), geometría (20%) y trigonometría (15%). En cuanto a tipo de ítem, todos son de selección única, cada uno con cuatro opciones de respuesta. Para este estudio se contó con un conjunto de datos codificados de manera dicotómica (1 en caso de acierto, 0 en caso contrario).

Análisis psicométricos

Debido a que algunos ítems presentaron problemas técnicos o de desajuste al modelo de análisis empleado, se tomaron en cuenta 55 ítems. El coeficiente alfa de Cronbach resultante es de 0,86, IC 95% [0,84, 0,88] como evidencia de una alta consistencia interna.

Para la estimación de los parámetros de los ítems se seleccionó el modelo de Rasch, según el cual la respuesta a un ítem depende solo de la aptitud de la persona y de la dificultad del ítem; ambas se estiman en una misma escala, y cada una de esas estimaciones tiene un grado de error asociado a ellas, el cual decrece a medida que la dificultad y la aptitud aumentan (Bond y Fox, 2007).

Los cálculos con el modelo de Rasch se llevaron a cabo con el software Winsteps 3.74.0 (Linacre, 2012), con el que se obtuvieron valores de θ que variaron de -2,41 a 3,19, con un promedio de 0 y una desviación estándar de 1,20.

En cuanto al ajuste al modelo psicométrico, se emplearon medidas de ajuste interno [infit] y externo [outfit], con un resultado promedio de 0,99 y 1,02, respectivamente. De acuerdo con Bond y Fox (2007), ambos valores se encuentran en el rango de ajuste para una prueba de este tipo y de sus consecuencias para la población.

Especificación de atributos

Para determinar las habilidades, los conocimientos y los procesos cognitivos medidos en la prueba se utilizaron la técnica de pensamiento en voz alta (Ericsson y Simon, 1993) con estudiantes que cursaron undécimo año y protocolos escritos de especialistas en la enseñanza de la Matemática. La primera lista estuvo compuesta por veintiún atributos, y, una vez que se contó con la descripción de cada atributo y una guía para la codificación de ítems, se procedió a analizar cada ítem en función de los atributos involucrados en su resolución.

Una vez codificados los 55 ítems se procedió a realizar un primer análisis de regresión múltiple, considerando el valor de q del modelo de Rasch como variable dependiente. Debido a que el porcentaje de varianza explicada no superó el 70% con la estructura de atributos propuesta, se llevaron a cabo nuevas revisiones de la lista preliminar de atributos y de la guía para la codificación, lo que permitió reconsiderar lo codificado y depurar las descripciones de los atributos, para finalmente proponer una lista de 18 atributos, con los que se codificaron los 55 ítems, y que se detallan en el cuadro 1 (Artavia-Medrano, 2014). Como los especialistas trabajaron individualmente la codificación, se procedió a calcular la fiabilidad con tres medidas: 1) el porcentaje de acuerdo, 2) el coeficiente Phi y 3) el coeficiente Kappa de Cohen; con estas medidas se tuvo fiabilidad como acuerdo entre jueces.

La información brindada en el cuadro 1 permite comprender tanto la estructura de atributos que subyace a la prueba como los informes y las rutas de mejoramiento que están dadas en términos de estas habilidades específicas.

Cuadro 1.

Atributos para los ítems de la prueba

tab1.jpg

RESULTADOS

En esta sección se exponen los resultados considerados de mayor relevancia en cuanto a la evaluación de diagnóstico cognitivo se refiere. En primer lugar, se aportan evidencias de análisis de la matriz de Q propuesta para la prueba empleada para el estudio; posteriormente, se presentan las rutas de mejoramiento, y al final se exponen algunos ejemplos de informes que se pueden elaborar a partir de la información que brindan los métodos psicométrico-cognitivos como el rule space.

Para evaluar la matriz de incidencia propuesta se realizaron análisis de regresión múltiple tanto a nivel de los ítems como de los estudiantes. En el primer caso, lo que se pretende es explicar en qué medida la varianza en la dificultad de los ítems se explica por los atributos involucrados en ellos. Los 18 atributos propuestos explican más del 79% de la varianza en la dificultad de los ítems, estimada según el modelo de Rasch (R2 = 0,861; R2 adj = 0,792).

En el nivel del estudiantado se estimó el poder explicativo de las probabilidades de dominio de atributos para predecir el desempeño o rendimiento en la prueba. Para este caso, se obtuvo que el 90% de la varianza en las puntuaciones totales de la prueba se explica por las probabilidades de dominio de atributos (R2 = 0,901; R2 adj = 0,896); por lo que se considera un criterio adicional para establecer la validez de la matriz Q propuesta para la prueba analizada.

Los resultados de los análisis de regresión permiten fundamentar que los atributos propuestos en la matriz Q tienen un alto poder explicativo para obtener información valiosa acerca de los conocimientos y las habilidades medidos por los ítems que componen la prueba.

Dado que la segunda etapa del método rule space consiste en generar estados de conocimiento, se trabajó inicialmente con 218 probabilidades de combinaciones que describen patrones de dominio y no dominio de los atributos que subyacen a los ítems que conforman la prueba. Con la ayuda del software PMAIN-RULE SPACE (Tatsuoka, Varadi y Tatsuoka, 2004) se obtuvieron los diez estados de conocimiento más próximos a cada persona.

Debido a la gran cantidad de posibles estados de conocimiento, el método rule space utiliza una regla de decisión bayesiana para tomar la decisión de qué tan cerca está cada patrón de respuestas respecto de un posible estado de conocimientos. Para tal fin se calculó la distancia de Mahalanobis (D2) con un criterio de D2 < 4,5, con lo que se obtuvo una tasa de clasificación del 98,4% de los estudiantes. Cabe destacar que la tasa de clasificación también está vinculada con la validez de la lista de atributos y de la matriz Q.

En el cuadro 2 se muestra, a modo de ejemplo, la clasificación en estados de conocimiento de dos personas (ID = 97, ID = 219). Para cada una de ellas se tienen los valores de aptitud según el modelo de Rasch (θ) y el índice extendido de precaución (ξ), así como la distancia de Mahalanobis y el patrón de atributos asociado al estado de conocimiento en que ambas personas resultaron clasificadas.

Cuadro 2.

Ejemplo de valores en rule space, estado de conocimiento, distancia de Mahalanobis y patrón asociado de atributos para dos estudiantes

tab2.jpg

En el cuadro 2 se expone que la persona ID = 97 tiene menor habilidad que ID = 219, según el modelo de Rasch, así como también evidencia respuestas más atípicas por parte de ID = 97, conforme a las esperadas para su nivel de habilidad, que las de ID = 219.

Por otra parte, las personas clasificadas en el estado de conocimiento (EC) 1577 se caracterizan por no dominar los atributos 6, 8 y 12. Por su parte, las personas ubicadas en EC 269 no dominan los atributos 8, 15 y 16. En ambos casos, el valor de D2 permite concluir la pertenencia al estado de conocimiento en que fueron ubicadas.

En el cuadro 3 se muestran las probabilidades de dominio de atributos para ID = 97, ID = 219, como evidencia de que difieren no solo en cuanto a la habilidad, la atipicidad de sus respuestas y su clasificación según el rule space, sino también en cuanto a un detalle más específico: la probabilidad de dominio para cada uno de los atributos correspondientes a los ítems de la prueba.

Cuadro 3.

Ejemplo de probabilidad de dominio de atributos para dos estudiantes

tab3.jpg

Una de las ventajas de los diagnósticos cognitivos es que permiten diferenciar estrategias educativas para personas que serían tratadas de la misma manera si solo se asume la puntuación obtenida en la prueba o el valor de aptitud según la teoría de respuesta a los ítems. Birenbaum y Tatsuoka (1982) cuestionaron la validez de la puntuación total de la prueba basada en la cantidad de respuestas correctas, pues advirtieron que algoritmos incorrectos permiten obtener una buena cantidad de respuestas correctas. De igual forma, el modelo de Rasch que se ha utilizado para evaluaciones con carácter diagnóstico ubica en el mismo punto de la escala a todas las personas con la misma puntuación total, por lo que no es posible diferenciar cuáles son las fortalezas y las debilidades de las personas.

La figura 1 ilustra los perfiles individuales de probabilidad de dominio de atributos para dos estudiantes (ID = 26, ID = 219), quienes obtuvieron la misma puntuación en la prueba (44 puntos, o bien, una calificación de 80 en una escala de 100 puntos). A pesar de tener la misma nota, estas personas presentan diferencias en sus patrones de dominio de atributos.

En comparación con la persona ID = 26, se tiene que ID = 219 presenta un mayor dominio en la utilización de métodos de factorización (AT1) y la determinación o el cálculo de conceptos de funciones trigonométricas (AT18); no obstante, en la determinación de elementos o propiedades de una figura plana (AT14) y la determinación de elementos o propiedades de dos o más figuras planas o un cuerpo geométrico (AT15), la persona ID = 26 muestra mayor fortaleza que la persona ID = 219.

Figura 1.

Perfiles de probabilidades de dominio de atributos para dos personas con la misma puntuación en la prueba

fig1.jpg

Una de las características más importantes de los modelos de diagnóstico cognitivo es que brindan información acerca de aspectos específicos del aprendizaje tanto a nivel colectivo como individual. Como parte de los análisis posteriores de las etapas básicas del método rule space, Birenbaum y Tatsuoka (1993) propusieron la elaboración de rutas de mejoramiento [remediation routes] que describen las distintas relaciones entre estados de conocimiento. Estas relaciones resultan de gran utilidad para elaborar acciones educativas que propicien o fomenten el mejoramiento del dominio de atributos aún no logrados por el estudiantado.

Por ejemplo, la persona identificada con ID = 219 respondió correctamente 44 ítems y falló 11. Esta persona se clasifica en el estado de conocimiento 269 (EC269), el cual se caracteriza porque las personas clasificadas en él no dominan la verificación de proposiciones (AT8), la determinación de elementos o propiedades de dos o más figuras planas o un cuerpo geométrico (AT15) y el cálculo de áreas o volúmenes de figuras o regiones (AT16). El valor de θ para ese estado es 1,75.

Para la persona ID = 219, las rutas de mejoramiento se muestran en la figura 2, en la que los atributos indicados en cada cuadro son los que no se han dominado, y los números fuera de los cuadros corresponden al estado de conocimiento en el que podría ubicarse, en caso de seguir estrategias educativas que enfaticen en el logro de los atributos aún no dominados.

Figura 2.

Ejemplo de rutas de mejoramiento elaboradas a partir de los estados de conocimiento más comunes (para la persona ID = 219)

fig2.jpg

Como se observa en la figura 2, hay tres rutas de mejoramiento para la persona ID = 219. La primera de ellas se puede representar por EC269 → EC265 → EC9, la cual le permite dominar el cálculo de áreas o volúmenes de figuras o regiones (AT16) y, posteriormente, la verificación de proposiciones (AT8).

La segunda ruta se representa por EC269 → EC13 → EC9, la cual evidencia una forma de dominar la verificación de proposiciones (AT8) y, finalmente, el cálculo de áreas o volúmenes de figuras o regiones (AT16).

La tercera ruta, representada por EC269 → EC9, muestra el dominio de la verificación de proposiciones (AT8) y el cálculo de áreas o volúmenes de figuras o regiones (AT16). Tanto en esta ruta como en las dos anteriores se evidencia una dificultad para dominar la determinación de elementos o propiedades de dos o más figuras planas o un cuerpo geométrico (AT15). Esta información es totalmente consistente con el hecho de que la probabilidad que la persona con ID = 219 tiene para dominar el AT15 es de 0,50.

Por su parte, la persona ID = 97 se ubica en el EC1577, caracterizado por las personas que no dominan la interpretación de la información contenida en un enunciado (AT6), la verificación de proposiciones (AT8) y la determinación o el cálculo de conceptos de funciones exponenciales y logarítmicas (AT12). Las rutas de mejoramiento para dicha persona se muestran en la figura 3.

Figura 3.

Ejemplo de rutas de mejoramiento elaboradas a partir de los estados de conocimiento más comunes (para la persona ID = 97)

fig3.jpg

Hay dos rutas de mejoramiento para la persona ID = 97. La primera de ellas se puede representar por EC1577 → EC1409 → EC1353, la cual le permite dominar la verificación de proposiciones (AT8) y, posteriormente, la determinación o el cálculo de conceptos de funciones exponenciales y logarítmicas (AT12).

La segunda ruta se representa por EC1577 → EC1353, la cual evidencia una forma de dominar la verificación de proposiciones (AT8) en forma conjunta con la determinación o el cálculo de conceptos de funciones exponenciales y logarítmicas (AT12) y, finalmente, la interpretación de la información contenida en un enunciado (AT6).

Como se ha mostrado, las evaluaciones de diagnóstico cognitivo, que integran principios de psicología cognitiva con la medición en educación, tienen como propósito fundamental brindar información acerca de las estructuras de conocimiento y las habilidades del estudiantado. Para ello, proponen una descripción de los procesos cognitivos y las estructuras de conocimiento que las personas utilizan para resolver los ítems de una prueba, y, de esta manera, ofrecen el establecimiento de perfiles individuales y grupales que estén caracterizados por el dominio de habilidades, o bien, la probabilidad de logro, por lo que en términos educativos ofrecen una valiosa información para guiar la elaboración de unidades didácticas y materiales en los que se enfatice en las estrategias que coadyuven al mejoramiento de las habilidades que el estudiantado aún no domina.

La riqueza de la información de las evaluaciones de diagnóstico cognitivo está en contraste con la información limitada que usualmente brindan las pruebas de gran escala, para las que los informes de resultados se basan en ofrecer una escala común, niveles de logro, puntuaciones por sectores de interés y otros aspectos que se enfocan en la rendición de cuentas en un sistema educativo. Esto se debe al modelo de medición empleado tradicionalmente, basado en una variable latente considerada como unidimensional.

Para presentar informes de diagnóstico cognitivo se debe pensar cuál es la información que se debe presentar, así como la manera en que debe hacerse, para lo que han de considerarse las necesidades de los resultados, los propósitos de la evaluación y las diferentes audiencias a las que dicha información va dirigida (Roberts, 2012).

Una de las formas en las que se puede informar acerca del logro de atributos es presentando el desempeño de una persona en términos de las evidencias de dominio de tales atributos basándose en sus respuestas a los ítems. Para ello, según las probabilidades de dominio, se pueden clasificar en tres categorías: limitado, moderado y consistente. En el primero de los casos, la categoría se asocia a probabilidades por debajo de 0,50; la segunda corresponde a probabilidades entre 0,50 y 0,80, y la tercera se asocia a probabilidades mayores que 0,80 (Roberts y Gierl, 2011).

La categoría “consistente” se refiere a una comprensión profunda de la habilidad y a una alta probabilidad de dominio; una evidencia “moderada” refleja una comprensión inconsistente y una probabilidad intermedia de dominio de la habilidad, y, finalmente, una evidencia “limitada” se refiere a una comprensión insuficiente de la habilidad y una baja probabilidad de dominarla. Particularmente, en este último caso no se puede afirmar que la persona domina el atributo, sobre todo porque la probabilidad de dominio es inferior a 0,50. En términos educativos, es posible establecer acciones didácticas para el mejoramiento de los atributos no dominados, así como para fortalecer lo que se domina, o bien, aclarar lo que aún no se ha comprendido de modo satisfactorio.

En la figura 4 se muestran el tema, la puntuación total en la prueba y la puntuación obtenida en el tema específico con que se elaboró el ejemplo del modelo de informe de resultados, así como los contenidos correspondientes. Los atributos fueron ordenados en nivel creciente de dificultad (de primero aparece el de menor probabilidad media de dominio en toda la población).

Figura 4.

Ejemplo de informe de dominio de atributos para un estudiante (ID = 112), a partir de las probabilidades de dominio y según nivel creciente de dificultad. Elaboración propia a partir de Roberts y Gierl, 2011

fig4.jpg

Para otro tipo de audiencias es posible ordenar todos los atributos correspondientes a los ítems de la prueba, tomando como base su probabilidad media de dominio, calculada para la muestra de estudiantes. Este ordenamiento, unido a la clasificación expuesta anteriormente, permite tener un panorama global del desempeño en la prueba, así como del dominio de los atributos cognitivos correspondientes a los ítems de la prueba, con el fin de establecer diversas acciones educativas destinadas a fortalecer las áreas débiles y a mantener el logro de aquellas detectadas como fuertes o dominadas. Un ejemplo de este tipo de informe aparece en la figura 5.

Figura 5.

Ejemplo de informe de dominio de atributos como evidencia del desempeño general del estudiantado en toda la prueba. Elaboración propia

fig5.jpg

Como se observa en la figura 5, los atributos con evidencia de dominio consistente son de naturaleza fundamentalmente algorítmica, lo cual puede ser un reflejo de un sistema educativo que ha privilegiado o fomentado ese tipo de prácticas, en detrimento de otras habilidades asociadas a la competencia matemática del estudiantado.

DISCUSIÓN DE RESULTADOS

Los resultados muestran que la matriz de incidencia propuesta tiene un alto poder explicativo de las estructuras de conocimiento y las habilidades del estudiantado que contestó la prueba.

Los perfiles de dominio de atributos propios del método rule space permiten ubicar las fortalezas y debilidades del estudiantado en cuanto a su competencia matemática se refiere, y no únicamente enfatizar en los contenidos propios de los ítems que aciertan o fallan.

El grado de especificidad en la información que se ha ejemplificado en este artículo es uno de los aportes del método rule space para el diagnóstico a nivel individual y grupal, por lo que esto constituye una de sus fortalezas.

Los reportes individuales permiten ilustrar las diferencias en cuanto al dominio de atributos para personas que, de acuerdo con enfoques tradicionales de medición, estarían ubicadas en la misma escala de aptitud. A partir de tales diferencias es posible describir rutas de mejoramiento que permitan una valoración más individualizada y la elaboración de estrategias y actividades diferenciadas según las características y necesidades de cada persona.

Asimismo, a nivel general, es posible contar con informes de resultados que permitan tener una perspectiva global del desempeño del estudiantado. Dado que estos informes parten de la base del ordenamiento de los atributos para toda la prueba según su probabilidad media de dominio, se hace posible tomar en cuenta las diversas habilidades y los conocimientos involucrados en la prueba, por lo que se pueden proponer estrategias educativas que centren su interés en lo que se considera como prioritario tanto para mejorar como para fortalecer competencias en el estudiantado.

CONCLUSIONES

La falta de información cognitiva disponible al interpretar los resultados de pruebas de gran escala con modelos tradicionales ha sido una de las mayores limitantes para que se puedan utilizar como un medio para realimentar los procesos de enseñanza y aprendizaje.

La puntuación total obtenida en una prueba es un indicador de nivel macro que no brinda información diagnóstica valiosa, pues no es posible distinguir las fuentes de errores en dos personas que tengan la misma puntuación, dado que existen varias formas de obtenerla. Tampoco es posible analizar las estrategias utilizadas ni considerar procedimientos diferentes para la resolución de los ítems. Indudablemente, esto limita proponer acciones educativas que procuren subsanar las equivocaciones detectadas y que puedan ser traducidas en experiencias para el mejoramiento del aprendizaje, o bien, hacer propuestas pedagógicas en torno a estrategias más efectivas para la resolución de una situación dada.

En respuesta a tales limitaciones, se cuenta con enfoques psicométrico-cognitivos. Uno de ellos, el método rule space, es un enfoque probabilístico que permite analizar los datos de una prueba con información basada en habilidades cognitivas, de tal manera que se identifican patrones de respuesta para clasificar a las personas en estados de conocimiento, es decir, una descripción de las posibilidades que tiene una persona de dominar o no los atributos cognitivos correspondientes.

Los resultados que ofrece el método rule space permiten describir grupos de estudiantes en términos de los atributos cognitivos pertenecientes a los ítems de una prueba. Esta información permite que los docentes tengan un fundamento empírico en que basar su planeamiento didáctico y elaborar actividades que enfaticen en el logro de los atributos que sus estudiantes aún no dominan, por ejemplo, tomando como base las rutas de mejoramiento. Por estas razones, la información técnica que este tipo de análisis ofrece debe ser comunicada a distintos sectores de una forma comprensible y útil para el desarrollo de acciones educativas concretas.

Por el reciente desarrollo de estos métodos en la literatura técnica, aún queda camino por recorrer en la forma de comunicar resultados a diferentes audiencias, a las que se les debe comunicar, de una manera clara y ajustada a sus propósitos, los insumos que los diagnósticos cognitivos pueden ofrecer, para con ello lograr una vinculación entre currículum, enseñanza, aprendizaje y evaluación.

REFERENCIAS

1 

Artavia-Medrano, A. (2014). Evaluación cognitiva diagnóstica en Matemática: modelo elaborado con el método rule space para estudiantes costarricenses de undécimo año. Disertación doctoral no publicada, Universidad de Costa Rica, Costa Rica.

2 

Artavia-Medrano, A. (2015). Interpretación y análisis de pruebas educativas y psicológicas con el método rule space. Actualidades en Psicología, 29 (119), 63-77.

3 

Artavia-Medrano, A. y Larreamendy-Joerns, J. (2012). Información cognitiva a partir de pruebas de gran escala: el método de representación del espacio de reglas. Universitas Psychologica, 11 (2), 599-610.

4 

Birenbaum, M. y Tatsuoka, K. (1982). On the dimensionality of achievement test data. Journal of Educational Measurement, 19 (4), 259-266.

5 

Birenbaum, M. y Tatsuoka, K. (1993). Applying an IRT-based cognitive diagnostic model to diagnose students’ knowledge states in multiplication and division with exponents. Applied Measurement in Education, 6 (4), 255-268.

6 

Bond, T. G. y Fox, C. M. (2007). Applying the Rasch model: Fundamental Measurement in the human sciences. Mahwah, NJ: Lawrence Erlbaum Associates.

7 

Buck, G., VanEssen, T., Tatsuoka, K., Kostin, I., Lutz, D. y Phelps, M. (1998). Development, selection and validation of a set of cognitive and linguistic attributes for the SAT I verbal: Sentence completion section. (Technical Report RR-98-23). Princeton, NJ: Educational Testing Service.

8 

de la Torre, J. (2011). The generalized DINA model framework. Psychometrika, 76 (2), 179-199.

9 

de la Torre, J. y Douglas, J. (2004). Higher-order latent trait models for cognitive diagnosis. Psychometrika, 69 (3), 333-353.

10 

Embretson, S. E. (1997). Multicomponent response models. En W. J. van der Linden y R. K. Hambleton (eds.), Handbook of modern item response theory (pp. 305-321). Nueva York: Springer.

11 

Ericsson, K. y Simon, H. (1993). Protocol analysis: Verbal reports as data. Massachusetts: The MIT Press.

12 

Ferrer, G. (2006). Sistemas de evaluación de aprendizajes en América Latina: balance y desafíos. Santiago: Alfabeta Artes Gráficas.

13 

Fischer, G. (1973). The linear logistic test model as an instrument in educational research. Acta Psychologica, 37, 359-374.

14 

Fischer, G. (1997). Unidimensional linear logistic Rasch models. En W. J. van der Linden y R. K. Hambleton (eds.), Handbook of modern item response theory (pp. 225-243). Nueva York: Springer.

15 

Junker, B. y Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric IRT. Applied Psychological Measurement, 25 (3), 211-220.

16 

Leighton, J., Gierl, M. y Hunka, S. (2002, abril). The attribute hierarchy model for cognitive assessment. Louisiana: Artículo presentado en Annual Meeting of the National Council on Measurement in Education (NCME). http://www.education.ualberta.ca/educ/psych/crame

17 

Leighton, J., Gierl, M. y Hunka, S. (2004). The attribute hierarchy model: An approach for integrating cognitive theory with assessment practice. Journal of Educational Measurement, 41 (3), 205-236.

18 

Linacre, M. (2012). WINSTEPS (Versión 3.74.0) [Software de cómputo]. Chicago, IL: Winsteps Rasch Measurement.

19 

Mislevy, R., Steinberg, L. y Almond, R. (2003). On the structure of educational assessments. Measurement: Interdisciplinary Research and Perspectives, 1 (1), 3-62.

20 

Roberts, M. (2012). Developing and evaluating score reports for cognitive diagnostic assessment. Disertación doctoral no publicada, University of Alberta, Canadá.

21 

Roberts, M. y Gierl, M. (2010). Developing score reports for cognitive diagnostic assessments. Educational Measurement: Issues and Practice, 29 (3), 25-38.

22 

Roberts, M. y Gierl, M. (2011, abril). Developing and evaluating score reports for a diagnostic mathematics assessment. Artículo presentado en Annual meeting of the American Educational Research Association (AERA), New Orleans, LA.

23 

Tatsuoka, K. (1983). Rule space: An approach for dealing with misconceptions based on item response theory. Journal of Educational Measurement, 20 (4), 345-354.

24 

Tatsuoka, K. (1985). A probabilistic model for diagnosing misconceptions by the pattern classification approach. Journal of Educational Statistics, 10 (1), 55-73.

25 

Tatsuoka, K. (1990). Toward an integration of item-response theory and cognitive error diagnosis. En N. Frederiksen, R. Glaser, A. Lesgold y M. Shafto (eds.), Diagnostic monitoring of skills and knowledge acquisition (pp. 453-488). Nueva Jersey: Erlbaum.

26 

Tatsuoka, K. (1995). Architecture of knowledge structures and cognitive diagnosis: A statistical pattern recognition and classification approach. En P. D. Nichols, S. F. Chipman y R. L. Brennan (eds.), Cognitively diagnostic assessment (pp. 327-359). Hillsdale, NJ: Erlbaum.

27 

Tatsuoka, K. (2009). Cognitive assessment: An introduction to the rule space method. Nueva York: Routledge Taylor y Francis Group.

28 

Tatsuoka, K., Birenbaum, M., Lewis, C. y Sheehan, K. (1993). Proficiency scaling based on conditional probability functions for attributes. (Technical Report RR-93-50-ONR). Nueva Jersey: Educational Testing Service.

29 

Tatsuoka, K., Varadi, F. & Tatsuoka, C. (2004). PMAIN-RULE SPACE. [Software de cómputo no publicado]. Trenton, NJ, EE.UU.: Tanar.