Desarrollando una medida justa de habilidades de escritura en inglés: una entrevista con Larry Davis
A continuación, una conversación entre el Director de Investigación de ETS, Larry Davis, quien ha desempeñado un papel destacado en la investigación del TOEFL® durante más de una década, y John Clark, Director de Iniciativas Estratégicas. Puedes leer más investigaciones de Larry aquí.
Larry, quería empezar con una pregunta sobre tu formación académica. ¿Es cierto que primero obtuviste una licenciatura en ciencias pesqueras?
Sí, tenía una licenciatura en ciencias animales con especialización en acuicultura y luego hice un máster en ciencias pesqueras.
¡Salvaje! Puede que sea una pregunta injusta, pero ¿hay algún vínculo entre estos campos y la evaluación de idiomas, la carrera que has elegido?
Son campos de estudio muy diferentes, sin duda. Pero hay algunas similitudes. Y eso tiene que ver con la necesidad de averiguar cómo medir las cosas y luego analizar lo que mides.
En mi trabajo en pesca, estudiamos la fisiología y el comportamiento migratorio del salmón. Y no siempre existían formas establecidas de medir fenómenos relacionados con estas cosas.
Así que una gran parte de ese trabajo es averiguar, primero que nada, cómo medir algo que nos va a decir algo interesante. Y una vez que tienes esos datos, ¿cómo los evalúas o analizas para informar la toma de decisiones?
En las pruebas de idioma, el problema es el mismo. ¿Qué tipo de pruebas recopilamos sobre la capacidad de alguien para comunicarse en inglés? ¿Cómo recopilamos estos datos? ¿Y cómo lo evaluamos de una manera que pueda ser útil para informar la toma de decisiones?
Así que son campos muy diferentes, pero ambos se enfrentan a un tipo de problema similar.
Es una comparación muy útil. Por cierto, he estado en las escaleras para salmones en el río Willamette en Oregón, donde han construido estructuras que permiten a los salmones nadar alrededor de presas para desovar río arriba. Eso es todo lo que sé sobre el salmón.
He estado muy metido en lugares así, incluso dentro de grandes presas hidroeléctricas a las que probablemente ya ni siquiera se pueda acceder por motivos de seguridad.
¡Ah! Parece que has elegido un campo menos peligroso. Pero has sentado las bases para el tema que quería tratar.
Uno de los mayores retos en la evaluación en inglés es averiguar cómo recopilar indicadores significativos de la capacidad de escritura en inglés de un estudiante. ¿Cómo piensas en los retos inherentes a evaluar las habilidades de escritura en un examen estandarizado?
Creo que un desafío fundamental es que, tal como has insinuado, solo podemos recopilar una muestra muy breve de lo que alguien puede hacer por escrito.
Y luego, basándose en esa muestra —ya sean diez minutos, una hora o incluso un par de horas— eso es solo una pequeña parte de toda la escritura que alguien podría hacer, tanto en términos del número de palabras que escribe a lo largo de su carrera académica como de los diferentes tipos de escritura que alguien podría hacer en su estudio académico.
Así que el juego es realmente una cuestión de predicción. Estamos recogiendo una muestra de lo que pueden hacer. Y luego, basándonos en esa muestra, estamos haciendo algunas extrapolaciones de lo que creemos que esta persona probablemente podrá hacer en el mundo real. Así que ese es el reto fundamental.
Existen diferentes enfoques razonables para abordar ese desafío. En cierto sentido, puedes tomar una muestra relativamente breve y combinarla con otros datos para hacerte una idea de la capacidad general de alguien. Y este es el enfoque típico de las pruebas de competencia lingüística.
En el otro extremo, puedes hacer que alguien haga tareas muy específicas para una situación dada, y eso ayudaría a inferir más directamente lo que alguien puede hacer en esa situación.
Este tipo de examen de 'propósitos específicos' podría ser algo parecido a un examen de acceso a la abogacía, que probablemente se acerca un poco más a la redacción que se espera de un abogado, en lugar del tipo de redacción muy general que solemos evaluar en los tests de competencia lingüística.
En lo que respecta específicamente al TOEFL, tú y nuestro colega John Norris liderasteis nuestros esfuerzos para investigar el impacto de un nuevo tipo de pregunta llamado Escribe para una Discusión Académica. ¿Por qué ETS consideró oportuno revisitar cómo evaluamos la escritura en el TOEFL?
Bueno, hay varias razones que motivaron el desarrollo de esa tarea. Una es que, desde que se desarrolló originalmente el IBT del TOEFL, a partir de mediados de los años 90 y hasta principios de los 2000, la escritura que ocurre en entornos universitarios ha cambiado, posiblemente.
Pero el examen no había cambiado. Así que sentimos que, en este caso, había cierta justificación para considerar tipos de escritura desarrollados recientemente. Y estos géneros suelen ser más cortos. Además, suelen ser más conversacionales.
Queríamos desarrollar una tarea que capturara parte de esto. Así que esa fue una de las motivaciones. Otro beneficio añadido es que idealmente ayudaría a reducir el tiempo de prueba. En la versión anterior del examen, la sección de redacción del IBT del TOEFL básicamente duraba una hora y tenía dos ítems.
Desde un punto de vista psicométrico, eso no te da mucha información sobre el tiempo que la gente dedica a esa parte del examen. Así que esa economía en tiempo de prueba fue otra ventaja añadida en cuanto al diseño de la tarea.
Además de hacer que esta sección sea más eficiente en tiempo, ¿cuáles fueron otras motivaciones detrás del desarrollo de la tarea Escribe para una Discusión Académica ?
Otro objetivo era proporcionar contexto adicional para la escritura. La tarea que sustituyó Escribir para una Discusión Académica fue una tarea de ensayo muy tradicional. Te hacen una pregunta de opinión, ya sabes: ¿cuál prefieres, perros o gatos? Y eso es todo lo que se recibe.
Este es un tipo de prueba muy tradicional y de uso prolongado. Pero no proporciona contexto. Y no te dice quién es el público. Tampoco te dice nada sobre la situación en general. Esta falta de contexto ha sido criticada en la comunidad de escritores, pero también, en la práctica, genera problemas a la hora de decidir si una respuesta es apropiada o no.
Por ejemplo, podrías tener un estudiante que escribe en un estilo académico y otro que escribe en un estilo coloquial. Los evaluadores tienden a querer dar una puntuación más alta al estudiante con el estilo más académico, pero realmente no hay ninguna razón de principios para privilegiar ese tipo de escritura frente a la jerga, porque no les dijimos quién es el público.
Así que ese es otro tema importante también. Definir claramente el propósito y la audiencia nos ayuda a puntuar estas respuestas de una manera más racional.
Para quienes no han hecho TOEFL recientemente, la tarea Escribe para una Discusión Académica incluye una sugerencia de un profesor, así como dos respuestas de estudiantes. Y se espera que el examinado aborde esos temas igual que lo haría en un foro académico moderno.
Sí, es correcto.
¿Cómo podemos ganar confianza en que un tipo de tarea así es adecuado para el examen?
Esa es una muy buena pregunta. Y la validez de los exámenes —que es a lo que se refiere esta pregunta— es algo a lo que los estudiantes de posgrado en evaluación de lenguas dedican mucho tiempo a estudiar. Este es un tema al que el campo ha prestado mucha atención durante muchas décadas. Y como resultado, tenemos procedimientos muy bien establecidos para pensar en cómo justificar una tarea de prueba.
Esto suele adoptar la forma de lo que se llama un argumento de validez que debe considerar ciertos tipos de pruebas. Este tipo de evidencia podría ser la relación entre la tarea y las tareas del mundo real. ¿Qué tan cerca está o qué nos dice sobre lo que alguien puede hacer en el mundo real?
También incluiría pruebas sobre cómo se califica la tarea y si esa puntuación es consistente y justa. ¿Y realmente la puntuación captura las partes importantes de lo que la gente necesita hacer en esa tarea?
También implicaría recopilar pruebas sobre cómo esta medida se relaciona con otras medidas similares del mismo tipo de capacidad. Por ejemplo, si tenemos una tarea de escritura, debería tener alguna relación positiva con otras evaluaciones de la escritura.
Finalmente, está la cuestión de cómo se relaciona la prueba con el rendimiento en el mundo real. Entonces, si la gente saca una nota alta en el examen, ¿significa eso que van a rendir bien en situaciones reales, como en sus trabajos de redacción? Y por último, ¿cuál es el efecto de reacción?
Y cuando digo que se repone, me refiero a que, si la gente va a prepararse para esta tarea, ¿realmente beneficia su capacidad lingüística? ¿Esa preparación realmente les ayuda a mejorar sus habilidades? ¿O simplemente están aprendiendo a superar obstáculos? Y la gente se preparará si es una prueba de alto riesgo.
Así que hay todo un marco y cadena de razonamiento que justifica estas tareas. Y este marco proporciona una base para pensar en cómo decidimos si una tarea de prueba o de prueba es adecuada para su uso.
En el trabajo donde comparaste la tarea Escribe para una Discusión Académica con el ensayo independiente, encontraste "similitudes en la calidad del texto producido por los examinados en términos de complejidad sintáctica, precisión gramatical, variedad léxica, discurso, cohesión y elaboración, y fluidez de su escritura."
Y estos términos son importantes porque forman parte de cómo calificamos el rendimiento de los estudiantes. Pero, ¿a qué te refieres cuando dices "complejidad sintáctica"?
La complejidad sintáctica tiene que ver con las estructuras gramaticales que se utilizan en la escritura. Algunos oyentes pueden haber diagramado frases en sus días escolares y sabrán de qué hablo, pero una oración más sintácticamente compleja tendrá un diagrama más largo y complejo. Y tiende a incluir varias cosas, como múltiples cláusulas.
Para usar una metáfora: si una frase simple es como un palo de bambú que simplemente sube recto, una frase compleja es más bien como un árbol con muchas ramas que, idealmente, contribuyen a un significado coherente.
Gracias por aclarar ese término: ¡bambú, lo entiendo! Cuéntame un poco más sobre el estudio sobre la nueva tarea de escritura refinada.
El problema básico aquí en el estudio que hicimos fue que cuando se introdujo la tarea Escribir para una Discusión Académica , no queríamos cambiar la interpretación de las notas de los exámenes. Así que la idea es que estamos cambiando la tarea, pero que siga apoyando el mismo tipo de inferencias sobre la habilidad de alguien.
Y en ese caso, es importante analizar el tipo de evidencia que obtenemos de la tarea existente frente a esta nueva tarea. Así que tomamos datos de personas que habían realizado ambas tareas y luego analizamos las distintas características de la escritura.
La complejidad sintáctica fue un punto de comparación junto con otros que mencionaste: la precisión gramatical, el uso del vocabulario, la cohesión, los marcadores del discurso, ese tipo de cosas.
¿Puedo preguntar una frase más? Variedad léxica. ¿Qué significa eso?
Es vocabulario. O en el rango de vocabulario, específicamente. Y la razón por la que lo vemos es que no se trata solo de usar muchas palabras diferentes o palabras grandes. Se trata de precisión. Si tienes más palabras en tu bolsa de palabras, eso te permite comunicar tus significados con mayor precisión.
¡Entendido! Larry, gracias por la mirada entre bastidores de cómo diseñamos una parte de nuestra prueba. Tengo un hijo que está aprendiendo a escribir y, para mí, es un milagro que no lo entienda. Pero Larry, has ayudado a desmitificar el proceso de medir la escritura en inglés. Muy agradecido por vuestro tiempo.
Ha sido un verdadero placer charlar, John, y siempre encantado de hablar sobre cómo se hace la salchicha, por así decirlo.
Sí, bueno, y hablando de cenar, hablemos pronto también de salmón.
Suena genial.