INVESTIGACIÓN EN EL TOEFL

Dentro de las actualizaciones del TOEFL iBT: validez por diseño

23 de abril de 2026

Durante más de seis décadas, el TOEFL ha funcionado como una evaluación principal de la competencia académica del inglés, sirviendo como un recurso importante para la toma de decisiones en admisiones universitarias, así como en otros contextos de educación superior y profesionales.

Desde la creación del examen en 1964, ETS ha revisado el TOEFL en múltiples ocasiones para reflejar un pensamiento actualizado en la enseñanza y evaluación de idiomas, avances en la ciencia de la medición y necesidades sociales en evolución. La versión actual de la prueba, TOEFL iBT, fue creada en 2005. Este enero, ETS lanzó una versión actualizada del examen.

Esta actualización mantiene el mismo propósito central y se basa en la larga historia de la prueba TOEFL como una evaluación válida y fiable basada en décadas de investigación en la medición en ETS. Estamos entusiasmados por compartir más sobre la filosofía de diseño detrás de estas mejoras.

Construir un examen de inglés que dé resultados significativos

Un requisito fundamental para todas las pruebas es que sean válidas para las afirmaciones y los usos finales de sus resultados. En otras palabras: los resultados deben ser significativos. La evidencia que respalda estas afirmaciones y usos válidos también debe ser variada y suficiente. Cuantas más oportunidades tenga un estudiante para demostrar lo que puede hacer en una variedad de tareas (por ejemplo, más elementos de diferentes tipos), mayor será la confianza en los resultados (validez).

En cualquier argumento de validez, se requiere evidencia. Esta evidencia se refiere a la información que recopilamos sobre lo que una persona puede hacer, es decir, las tareas de la prueba y las puntuaciones otorgadas por su desempeño en dichas tareas.

Una prueba de competencia en inglés para fines de admisión debe incluir tareas que: (1) cubran las cuatro habilidades lingüísticas (lectura, escritura, comprensión auditiva y expresión oral); (2) reflejan el uso integrado de estas habilidades típicas de los estudios universitarios (por ejemplo, leer y luego escribir); y (3) incluyen características del uso real del lenguaje.

Las puntuaciones obtenidas por la prueba también deben ser una estimación fiable de la capacidad lingüística global —con un nivel de precisión adecuado— y ser consistentemente precisas y precisas en todo el rango requerido de niveles de competencia lingüística. Para las pruebas de competencia lingüística, los resultados también deben reflejar con precisión la capacidad de usar el lenguaje para tener éxito en entornos académicos diversos.

En los últimos 20 años, los entornos académicos modernos han evolucionado para enfatizar nuevas formas de comunicación, facilitadas por nuevas tecnologías y modelos pedagógicos. Los estudiantes de hoy, por ejemplo, deben ser capaces de comunicarse con compañeros de todo el mundo en entornos de aprendizaje grupal, no solo absorber las clases magistrales de forma pasiva. También deben ser capaces de interpretar una gama más amplia de textos en inglés.

Para medir las habilidades en inglés necesarias para prosperar en entornos académicos modernos y recopilar evidencia significativa de resultados válidos, el iBT actualizado del TOEFL incorpora una variedad de tareas diversas que amplían nuestra colección de evidencia significativa sobre la capacidad lingüística.

Aumentar la diversidad y el volumen de tipos de tareas

La actualización del TOEFL iBT ha añadido más tareas de prueba de mayor variedad, basándose en la sólida base del formato original. El rendimiento de un examinado es significativo si se alinea con la capacidad de comunicarse en un entorno académico, lo que incluye no solo escuchar clases o leer libros de texto, sino también participar en otros contextos universitarios que contribuyen al éxito académico.

Sin embargo, un desafío común para los desarrolladores de pruebas es que las tareas de prueba que imitan de cerca actividades del mundo real pueden ser inviablemente laboriosas de gestionar, mientras proporcionan relativamente poca información de medición y evidencia relacionada.

Por ejemplo, puedes imaginar un examen de escritura que consiste únicamente en un ensayo escrito de una hora que se califica en una escala del 1 al 5. Dicha prueba puede considerarse "auténtica", pero ofrece una visión limitada de la capacidad lingüística del estudiante y limita la oportunidad de evaluar todo el espectro de habilidades del estudiante más allá de un único ítem.

Cualitativamente, esta prueba hipotética proporciona información sobre la capacidad de realizar solo un tipo de escritura. Cuantitativamente, solo produce cinco puntos, lo que limita su capacidad para discernir de forma fiable diferentes niveles de rendimiento. Este enfoque también es vulnerable a circunstancias aleatorias; Por ejemplo, si un escritor capaz tiene dificultades con el tema del ensayo, las consecuencias pueden ser graves.

Un enfoque alternativo es utilizar no solo más tareas, sino también una diversidad de tareas, proporcionando una visión más amplia de la capacidad y una mayor fiabilidad en la medición. En la búsqueda de este objetivo, el TOEFL iBT actualizado incluye tareas que miden habilidades lingüísticas fundamentales, así como tareas académicas modernizadas que permiten una comprensión más profunda de la capacidad comunicativa.

Cómo modernizó el TOEFL iBT su sección de oratoria

La sección de conferencias de TOEFL iBT muestra esta filosofía de diseño en acción. Para empezar, una tarea de expresión oral bien investigada, Escuchar y Repetir, evalúa la capacidad de comprender una oración hablada y reproducirla con precisión. El estudiante debe decodificar rápidamente la entrada del idioma y luego regenerarlo con precisión para producir una respuesta que refleje el desarrollo de sus habilidades lingüísticas subyacentes.

Esta tarea incorpora habilidades fundamentales necesarias para la comunicación oral (Levelt, 1989). Además, las personas con un sistema lingüístico interno altamente desarrollado pueden reproducir frases más largas de forma más eficiente y precisa, por lo que variando la longitud de las oraciones es posible medir de forma eficiente la habilidad lingüística general en un amplio rango de competencia lingüística (Davis & Norris, 2021).

Escuchar y Repetir se utiliza en combinación con una tarea de comunicación oral, Haz una entrevista, donde los estudiantes participan en una conversación simulada con un entrevistador pregrabado. La entrevista se realiza en diversas situaciones académicas, como la participación en un estudio de investigación, y los estudiantes reciben una puntuación total de cuatro preguntas relacionadas con el contexto de la entrevista. Las preguntas iniciales se centran en información factual y experiencias personales, mientras que las preguntas posteriores piden a los estudiantes que expresen y apoyen opiniones sobre cuestiones más amplias.

Esta tarea mide la capacidad del estudiante para hablar sobre una variedad de temas, produciendo una respuesta clara y coherente con el apoyo y la elaboración adecuados. La tarea también mide la capacidad de producir un habla inteligible, fluida y que haga un uso efectivo de una variedad de vocabulario y estructuras gramaticales.

Esta combinación de tareas que se centran en habilidades de oratoria fundamentales (Escuchar y Repetir) y comunicativas (Entrevista) aporta diversidad en la representación de constructos y en la evidencia relacionada sobre la capacidad de lenguaje oral de los estudiantes, manteniendo al mismo tiempo la importancia de las puntuaciones para tomar decisiones en contextos académicos.

Vinculación de los resultados del TOEFL con el rendimiento académico real

Independientemente de si una tarea se centra en habilidades fundamentales o comunicativas, la importancia requiere que el rendimiento en la tarea prediga un rendimiento lingüístico real adecuado para el éxito académico. De lo contrario, asignar una nota en un examen sería un ejercicio inútil.

Para las tareas de Escuchar y Repetir y Entrevista Virtual , una investigación reciente en la Universidad de Hawái en Manoa encontró que las puntuaciones en estas tareas se correlacionaban en alta medida con el rendimiento en otros tipos de tareas de lenguaje comunicativo asignadas en un entorno de aula.

Estos investigadores encontraron correlaciones de 0,84 entre las puntuaciones en la tarea Escuchar y Repetir y cada una de las dos tareas comunicativas del aula, y 0,83-0,85 en la tarea de Entrevista Virtual . Estos resultados sugieren que ambas tareas del iBT actualizado del TOEFL son muy buenos predictores del rendimiento en tipos típicos de oratoria académica.

Modernización de las secciones de lectura y escritura del TOEFL iBT

ETS implementó una estrategia similar —aumentando la diversidad de tipos de tareas y variando las oportunidades para evaluar el rendimiento de los estudiantes— también en las secciones de Lectura y Escritura.

En la nueva tarea añadida de la sección de Lectura, Completar las palabras, se elimina la segunda mitad de cada segunda palabra dentro de un pasaje de lectura. Se requiere que los estudiantes rellenen las letras que faltan para recrear las palabras originales y crear un texto coherente.

Esta tarea —comúnmente conocida como prueba C— proporciona de forma eficiente información sobre la capacidad de procesar y comprender textos, así como conocimientos de vocabulario, sintaxis y ortografía. Para complementar esta tarea, las tareas más tradicionales de comprensión lectora, como Leer un Pasaje Académico, ofrecen una visión sobre la capacidad de obtener información y comprender significados, como es habitual en el estudio académico.

En la sección de Redacción, la tarea Escribir para una Discusión Académica evalúa los aspectos comunicativos de las habilidades de alfabetización. Esta tarea tiene lugar en el contexto de una discusión en curso sobre una pregunta planteada por el profesor del curso. El estudiante aporta sus propias opiniones, respaldadas por razonamientos, conocimientos o experiencia relevantes. También pueden responder a las contribuciones de sus compañeros.

Además, Escribe para una Discusión Académica simula un tipo de escritura que se ha vuelto cada vez más común en contextos académicos. También proporciona un contexto para escribir, lo que ayuda a aclarar si el escritor puede escribir adecuadamente para un público y situación determinados. Esto contrasta con los exámenes de escritura tradicionales que utilizan un tema "desnudo", sin descripción del público ni de las circunstancias.

Más allá de estas características innovadoras, la tarea Escribir para una Discusión Académica también mide otros aspectos de la comunicación escrita exitosa, incluyendo la coherencia y claridad, la calidad de la elaboración y el alcance y precisión del lenguaje.

En resumen: Desarrollar la prueba actualizada del TOEFL iBT representó un desafío de diseño intrigante que requirió construir sobre pruebas sólidas de validez con mayor variedad y tareas adicionales que reflejen las riguentas expectativas y los diversos entornos académicos de las instituciones de educación superior actuales.

Además de la validez del contenido y del constructo mencionados anteriormente, la prueba TOEFL iBT también se beneficia de un diseño adaptativo de pruebas recién implementado, innovaciones en la ciencia de la medición, mejoras en la seguridad de las pruebas y más. ¡Sigue atento a este canal para saber más!

Referencias

Davis, L., & Norris, J. (2021). Desarrollo de una tarea innovadora de imitación provocada para una evaluación eficiente de la competencia en inglés (Informe de Investigación TOEFL nº 96). ETS. https://doi.org/10.1002/ets2.12338

Isbell, D. R., & Crowther, D. (en prensa). Investigando la relevancia real de un examen académico de habla inglesa: extrapolando evaluaciones subjetivas y características de rendimiento lingüístico. Pruebas de lenguaje.

Levelt, W. J. M. (1989). Hablando: De la intención a la articulación. MIT Press.

Pearlman, M. (2008). Finalizando el plano de la prueba. En C. A. Chapelle, M. K. Enright, & J. M. Jamieson (eds.), Construyendo un argumento de validez para el Test of English as a Foreign Language (pp. 227-258). Routledge.