INVESTIGACIÓN EN EL TOEFL

Dentro de las actualizaciones del TOEFL iBT: validez por diseño

23 de abril de 2026

Durante más de seis décadas, el TOEFL ha funcionado como una evaluación principal de la competencia académica del inglés, sirviendo como un recurso importante para la toma de decisiones en admisiones universitarias, así como en otros contextos de educación superior y profesionales.

Desde la creación del examen en 1964, ETS ha revisado el TOEFL en múltiples ocasiones para reflejar la actualización del pensamiento en la enseñanza y evaluación de idiomas, avances en la ciencia de la medición y necesidades sociales en evolución. La versión actual del examen, TOEFL iBT, fue creada en 2005. Este enero, ETS lanzó una versión actualizada del examen.

Esta actualización mantiene el mismo propósito central y se basa en la larga historia de la prueba TOEFL como una evaluación válida y fiable basada en décadas de investigación en la medición en ETS. Estamos entusiasmados por compartir más sobre la filosofía de diseño detrás de estas mejoras.

Construir un examen de inglés que dé resultados significativos

Un requisito fundamental para todas las pruebas es que sean válidas para las afirmaciones y los usos finales de sus resultados. En otras palabras: los resultados deben ser significativos. La evidencia para estas afirmaciones y usos válidos también debe ser variada y suficiente. Cuantas más oportunidades tenga un estudiante para demostrar lo que puede hacer en una variedad de tareas (por ejemplo, más elementos de diferentes tipos), mayor será la confianza en los resultados (validez).

En cualquier argumento válido, se requiere evidencia. Esta evidencia se refiere a la información que recopilamos sobre lo que una persona puede hacer, es decir, las tareas de la prueba y las puntuaciones otorgadas por el desempeño en dichas tareas.

Una prueba de competencia en inglés para fines de admisión debe incluir tareas que: (1) cubran las cuatro habilidades lingüísticas (lectura, escritura, comprensión auditiva y expresión oral); (2) reflejen el uso integrado de estas habilidades típico del estudio universitario (por ejemplo, leer y luego escribir); y (3) incluir características del uso real del lenguaje.

Las puntuaciones obtenidas por la prueba también deben ser una estimación fiable de la capacidad lingüística general —con un nivel adecuado de precisión— y ser consistentemente precisas y precisas en todo el rango requerido de competencia lingüística. Para las pruebas de competencia lingüística, los resultados también deben reflejar con precisión la capacidad de usar el lenguaje para tener éxito en entornos académicos diversos.

En los últimos 20 años, los entornos académicos modernos han evolucionado para enfatizar nuevas formas de comunicarse, facilitadas por nuevas tecnologías y modelos pedagógicos. Los estudiantes de hoy, por ejemplo, deben ser capaces de comunicarse con compañeros de todo el mundo en entornos de aprendizaje grupal, no solo absorber clases magistrales de forma pasiva. También deben ser capaces de interpretar una gama más amplia de textos en inglés.

Para medir las habilidades en inglés necesarias para prosperar en entornos académicos modernos y recopilar evidencia significativa de resultados válidos, el iBT actualizado del TOEFL incorpora una variedad de tareas diversas que amplían nuestra colección de evidencia significativa sobre la capacidad lingüística.

Aumentar la diversidad y el volumen de tipos de tareas

La actualización del iBT del TOEFL ha añadido más tareas de mayor variedad, basándose en la sólida base del formato original. El rendimiento de un examinado es significativo si se alinea con la capacidad de comunicarse en un entorno académico, lo que incluye no solo escuchar clases o leer libros de texto, sino también participar en otros contextos universitarios que contribuyen al éxito académico.

Sin embargo, un desafío común para los desarrolladores de pruebas es que las tareas de prueba que imitan de cerca actividades del mundo real pueden ser inviablemente laboriosas de gestionar, mientras proporcionan relativamente poca información de medición y evidencia relacionada.

Por ejemplo, puedes imaginar un examen de escritura que consiste únicamente en un solo ensayo escrito de una hora que se puntua en una escala del 1 al 5. Dicho examen podría considerarse "auténtico", pero ofrece una visión limitada de la habilidad lingüística del estudiante y limita la oportunidad de evaluar todo el espectro de habilidades del estudiante más allá de ese único ítem.

Cualitativamente, esta prueba hipotética proporciona información sobre la capacidad de realizar solo un tipo de escritura. Cuantitativamente, solo produce cinco puntos de puntuación, lo que limita su capacidad para discernir de forma fiable diferentes niveles de rendimiento. Este enfoque también es vulnerable a circunstancias aleatorias; por ejemplo, si un escritor capaz de otro modo tiene dificultades con el tema del ensayo, las consecuencias pueden ser graves.

Un enfoque alternativo es utilizar no solo más tareas, sino también una diversidad de ellas, proporcionando una visión más amplia de la capacidad y una mayor fiabilidad en la medición. En la búsqueda de este objetivo, el iBT actualizado del TOEFL incluye tareas que miden habilidades lingüísticas fundamentales, así como tareas académicas modernizadas que permiten una visión más profunda de la capacidad comunicativa.

Cómo modernizó el TOEFL iBT su sección de oratoria

La sección de expresión oral del TOEFL iBT muestra esta filosofía de diseño en acción. Para empezar, una tarea de expresión oral bien investigada, Escuchar y Repetir, evalúa la capacidad para comprender una frase hablada y reproducirla con precisión. El estudiante debe decodificar rápidamente la entrada del idioma y luego regenerarlo con precisión para producir una respuesta, reflejando el desarrollo de sus habilidades lingüísticas subyacentes.

Esta tarea incorpora habilidades fundamentales necesarias para la comunicación oral (Levelt, 1989). Además, las personas con un sistema lingüístico interno altamente desarrollado pueden reproducir frases más largas de forma más eficiente y precisa, por lo que variando la longitud de las oraciones es posible medir de manera eficiente la habilidad lingüística general en un amplio rango de competencia lingüística (Davis & Norris, 2021).

Escuchar y Repetir se utiliza en combinación con una tarea de comunicación oral, Haz una entrevista, donde los estudiantes participan en una conversación simulada con un entrevistador pregrabado. La entrevista tiene lugar en diversas situaciones académicas, como participar en un estudio de investigación, y los estudiantes reciben una puntuación total de cuatro preguntas relacionadas con el contexto de la entrevista. Las preguntas iniciales se centran en información fáctica y experiencias personales, mientras que las preguntas posteriores piden a los estudiantes que expresen y apoyen opiniones sobre cuestiones más amplias.

Esta tarea mide la capacidad del estudiante para hablar sobre una variedad de temas, produciendo una respuesta clara y coherente con el apoyo y la elaboración adecuados. La tarea también mide la capacidad de producir un habla inteligible, fluida y que haga un uso efectivo de una variedad de vocabulario y estructuras gramaticales.

Esta combinación de tareas que se centran en habilidades de oratoria fundamentales (Escuchar y Repetir) y comunicativas (Entrevista) aporta diversidad en la representación de constructos y en la evidencia relacionada sobre la capacidad de lenguaje oral de los estudiantes, manteniendo al mismo tiempo la importancia de las puntuaciones para tomar decisiones en contextos académicos.

Vinculación de los resultados del TOEFL con el rendimiento académico real

Independientemente de si una tarea se centra en habilidades fundamentales o comunicativas, la importancia requiere que el rendimiento en la tarea prediga un rendimiento en lenguaje real adecuado para el éxito académico. De lo contrario, asignar una puntuación en un examen sería un ejercicio inútil.

Para las tareas de Escuchar y Repetir y Entrevista Virtual , una investigación reciente en la Universidad de Hawái en Manoa encontró que las puntuaciones en estas tareas se correlacionaban en alta medida con el rendimiento en otros tipos de tareas de lenguaje comunicativo asignadas en un entorno de aula.

Estos investigadores encontraron correlaciones de 0,84 entre las puntuaciones en la tarea Escuchar y Repetir y en cada una de las dos tareas comunicativas del aula, y 0,83-0,85 en la tarea de Entrevista Virtual . Estos resultados sugieren que ambas tareas del iBT actualizado del TOEFL son muy buenos predictores del rendimiento en tipos típicos de habla académica.

Modernización de las secciones de lectura y escritura del TOEFL iBT

ETS implementó una estrategia similar —aumentando la diversidad de tipos de tareas y variando las oportunidades para evaluar el rendimiento de los estudiantes— también en las secciones de Lectura y Escritura.

En la nueva tarea añadida de la sección de Lectura, Completar las palabras, se elimina la segunda mitad de cada segunda palabra dentro de un pasaje de lectura. Los estudiantes deben rellenar las letras que faltan para recrear las palabras originales y crear un texto coherente.

Esta tarea —comúnmente conocida como prueba C— proporciona de forma eficiente información sobre la capacidad de procesar y comprender textos, así como conocimientos de vocabulario, sintaxis y ortografía. Para complementar esta tarea, las tareas más tradicionales de comprensión lectora, como Leer un Pasaje Académico, ofrecen una visión sobre la capacidad de obtener información y comprender significados, como es habitual en el estudio académico.

En la sección de Redacción, la tarea Escribir para una Discusión Académica evalúa los aspectos comunicativos de las habilidades de alfabetización. Esta tarea se realiza en el contexto de una discusión continua en clase sobre una pregunta planteada por el profesor del curso. El estudiante aporta sus propias opiniones, respaldadas por razonamientos, conocimientos o experiencia relevantes. También puede responder a las contribuciones de sus compañeros.

Además, Escribe para una Discusión Académica simula un tipo de escritura que se ha vuelto cada vez más común en contextos académicos. También proporciona un contexto para escribir, lo que ayuda a aclarar si el escritor puede escribir adecuadamente para una audiencia y situación determinadas. Esto contrasta con los exámenes tradicionales de escritura que utilizan un tema "desnudo", sin descripción del público ni de las circunstancias.

Más allá de estas características innovadoras, la tarea Escribir para una Discusión Académica también mide otros aspectos de la comunicación escrita exitosa, incluyendo la coherencia y claridad, la calidad de la elaboración y el alcance y precisión del lenguaje.

En resumen: Desarrollar la prueba actualizada del TOEFL iBT representó un desafío de diseño intrigante que requirió construir sobre pruebas sólidas de validez con mayor variedad y tareas adicionales que reflejen las riguentas expectativas y los diversos entornos académicos de las instituciones de educación superior actuales.

Además de la validez del contenido y del constructo mencionados anteriormente, la prueba iBT del TOEFL también se beneficia de un diseño adaptativo de pruebas recién implementado, innovaciones en la ciencia de la medición, mejoras en la seguridad de las pruebas y más. ¡Mantente atento a este canal para saber más!

Referencias

Davis, L., & Norris, J. (2021). Desarrollo de una tarea innovadora de imitación provocada para una evaluación eficiente de la competencia en inglés (Informe de Investigación TOEFL nº 96). ETS. https://doi.org/10.1002/ets2.12338

Isbell, D. R., & Crowther, D. (en prensa). Investigando la relevancia real de una prueba académica de habla inglesa: extrapolación de evaluaciones subjetivas y características de rendimiento lingüístico. Pruebas de idiomas.

Levelt, W. J. M. (1989). Hablando: De la intención a la articulación. MIT Press.

Pearlman, M. (2008). Finalizando el plan del examen. En C. A. Chapelle, M. K. Enright, & J. M. Jamieson (eds.), Construyendo un argumento de validez para el Test de Inglés como Lengua Extranjera (pp. 227-258). Routledge.