330x500 placeholder

About the Author

Ace I. Mejía-Sánchez (he/they) is an undergraduate student concentrating in Statistics and Government at Harvard College. He is passionate about the intersection between data science and the public sector, with an interest in federal statistics and social impact. He spends most of his free time tutoring students/business professionals, singing with the Noteables, and organizing with his local community group.

Sobre el Autor

Ace I. Mejía-Sánchez (el/elle) es un estudiante universitario que estudia Estadística y Gobierno en Harvard. Le apasiona la intersección entre la ciencia de datos y el sector público, y le interesan las estadísticas federales y el impacto social. Pasa la mayor parte de su tiempo libre dando tutoría a estudiantes y profesionales, cantando con el coro de los Noteables y organizando con un grupo comunitario local.

acemejiasanchez@gmail.com | LinkedIn | Website

Culture and Test Development

 On the Other Side of the Exam Booklet

by | Sep 14, 2023

Like several students now happily marching through college campuses across the United States, I’ve found myself at many a testing center anxiously chewing at my Number 2 pencil and pulling my hair out before a test booklet. Throughout K-12 education and university, we face tens to hundreds of exams and quizzes each year, evaluating the knowledge we’ve accumulated through Sunday night speed-reading and 9 a.m. lectures.

Tests have always been a source for critique from students, with literature analyzing their impact on educational barriers and diversity becoming more widespread as equity transforms into a greater area of focus for institutions. Exams have devolved into an optional add-on to most U.S. college applications and are instead reserved for classrooms and the occasional private school entrance exam; with many universities opting for a holistic admissions process. In Mexico, where I participated in the David Rockefeller Center for Latin American Studies (DRCLAS) summer internship program at the Centro Nacional de la Evaluación para Educación Superior (CENEVAL), I found that the role of exams in the education system shares a heavier weight in students’ lives than in the United States today.

CENEVAL—as the name suggests—familiarized me with the intricacies of evaluation instruments, however the first impactful learning experience I underwent upon arrival to their center of operations in Mexico City was an introduction to the office work environment. As a first-generation, low-income college student, office spaces were foreign to me in the way home-owners associations (HOAs) are to anyone living outside of the suburbs and Title I schools are to anyone living within them. I was surprised by the amenities, being able to rush downstairs to the building’s cafeteria to dine or the medical center to be treated was mystifying. Additionally, the hybrid work environment first prompted by the pandemic has remained a permanent fixture of the organization, with employees coming into the office on department-varied schedules. It greatly aligned with yet contrasted the 9-5 cubicle-workdays I had imagined.

Adapting to the workplace seemed daunting when considering my gender identity, pronouns, and the fact that gender-neutrality in Spanish is still under current development due to the language’s reliance on feminine and masculine nouns. However, I was met with warmth and respect from my supervisors and colleagues. We regularly lunched together across the company cafeteria, nearby restaurants, and the local tianguis while discussing objectives across departments and bonding over cultural differences.

Shifting back to the focus of CENEVAL’s operations, working with their Department for Academic Research, Technical Quality, and Innovation (DICTIA) provided an insider’s glance at Mexico’s current testing services and future direction. Broadly, test development is a laborious process with several components and intense collaboration. At CENEVAL, this process is organized into the following steps to some extent: design, verification, construction, assembly, application, qualification and maintenance. From piloting questions to model selection, each decision is made carefully and in accordance with creating an exam that is both accessible and intensive.  But first, let me give a brief overview of how testing is structured and supplied in Mexico.

Throughout Mexico City, freshly graduated middle-school students await anxiously for their high school admissions exam results between mid- to late summer. The Comisión Metropolitana de Instituciones Públicas de Educación Media Superior (COMIPEMS) is the commission responsible for administering the admissions exam for public high schools in Mexico City. Depending on the institution, a minimum benchmark is required for admission—with more selective high schools requiring a passing score between 60 to 90% percent. This minimum can also vary based on one of two tracks students are open to pursue: academic and technical.

The education system in Mexico is regulated by the Secretariat of Public Education (SEP) with a national system for education evaluation led by the Instituto Nacional para la Evaluación de la Educación (INEE). In addition to the COMIPEMS, these institutions oversee a plethora of other entrance exams required for pre- and post- secondary school. However, the institutions in charge of piloting and developing these exams are further down along the branches of the system, one of them being the CENEVAL.

Across organizations offering testing services, the primary quantitative approaches used for scoring are classical test theory (CTT) and item response theory (IRT).  Item response theory was the focus of my largest project during the program as I developed an interactive module for new company employees. A general shift from classical test theory to item response theory has occurred in recent years due to its applicability to computerized adaptive testing. For example, students can take the Graduate Record Examinations (GRE) offered by the Educational Testing Services (ETS) online as opposed to at a testing center. The exam questions change depending on the ability of the student as they progress through it in real-time.

The purpose of item response theory is to predict outcomes based on student ability and item characteristics; the item being either a test or question, for explanation’s sake I’ll be focusing on questions as an item. The three parameters IRT models can rely upon are difficulty, discrimination and guessing, though one and two parameter models are very commonly used. Difficulty, as the name implies, measures the difficulty of the question—essentially how high the student’s ability needs to be to reach a 50 percent probability of answering the question correctly. Discrimination represents how well the question differentiates between students based on their ability, a question that can’t distinguish between a student with higher ability and a student with lower ability is less than ideal. The guessing parameter, or guessing probability, is typically used to measure how well distractors, answers to the question that are not correct, perform, which we would hope to be as close to zero as possible.

This is, of course, only a fraction of the development process. Even before model selection occurs, questions are painstakingly reviewed for transparency and competency. CENEVAL employees work with external scholars and specialists that develop and review questions as they are designed. Moreover, questions are piloted and analyzed with these very models before being fully integrated into an exam. The same goes for materials outside of testing objectives, such as context questionnaires which typically attempt to identify which background characteristics are associated with student achievement.

During my time at CENEVAL, it has been difficult to reconcile the unyielding importance of tests for measuring knowledge with their capacity to pose as a barrier to education. I absolutely adored learning about the intricate models developed over decades of research in test development but continue to be doubtful of just how well these standards of measurement operate in countries colonized by white men who shaped these systems into their favor. I can’t pretend to fully understand Mexico City’s political context, even as a Mexican-American raised by two of its former residents, I grew up in the United States and regardless of my background my perspective will always be warped by the fact that I am ultimately a foreigner. I can only speak on how these systems impact the people I love with the understanding of how heavily influenced testing in the United States has been by an intention to exclude, as in the case of the Scholastic Aptitude Test (SAT).

Once my internship program ended, I stayed with my mother’s sister on the outskirts of Mexico City and met more of my extended family in the area. I come from a family of too many, with my father having eleven siblings and my mother two. I met one of my cousins and his daughters the weekend before leaving, one of them a fifteen-year-old full-time waitress at a nearby restaurant. She had taken a year away from school to study for the COMIPEMS, unsatisfied with her results in the admissions exam the previous year and had just retaken it earlier this June.

A similar state-wide admissions exam had stopped my mother from attending high school in the same city, nearly fifteen years before the establishment of the COMIPEMS. She worked as a cleaning girl throughout middle school and completed the U.S. equivalent of freshman year , or pre-high school education in the context of Mexico City as high school lasts three years as opposed to four. Unfortunately, she did not meet the minimum score required to enter any public Mexican high school, dropping out entirely to focus on her livelihood.

Forty years since then, my mother is currently working towards her high school diploma after passing her Adult Basic Education (ABE). We spend our weekends in the searing heat of California sitting at our dining table studying together as I complain about how costly the GRE registration fees are and she the hardships of re-developing study habits. Regardless of time and educational level, passing exams is a process full of hard work and stress for both of us.

A certain level of rigor is demanded of students, which exams are built for measuring and even incentivizing. They assess the effectiveness of curriculums and whether students have reached well-needed learning objectives. Moreover, their development is not taken lightly, with hours upon hours of analysis and redesign occurring at nearly every stage and a firm intention made towards equity. However, we still risk losing valuable perspectives as we flush out “failure.” More crucially, we risk compromising social mobility and a love for learning among our most vulnerable depending on their application—as my mother and cousin can attest.

Cultura y Desarrollo de Pruebas

 Al Otro Lado del Cuadernillo de Examen

de Ace Mejía-Sánchez

Al igual que varios estudiantes que ahora marchan felices por los campus universitarios de todo Estados Unidos, me he encontrado en muchos centros de exámenes mordiendo ansiosamente el borrador de mi lápiz y arrancándome el pelo ante un cuadernillo de examen. A lo largo de la educación K-12 y la universidad, nos enfrentamos a decenas o cientos de exámenes y pruebas cada año, evaluando el conocimiento que hemos acumulado a través de las sesiones de lectura rápida de los domingos por la noche y las clases de las 9 a.m.

Los exámenes siempre han sido una fuente de críticas por parte de los estudiantes, y la literatura que analiza su impacto en las barreras educativas y la diversidad se está generalizando a medida que la equidad se transforma en un área de mayor enfoque para las instituciones. Los exámenes se han convertido en un complemento opcional para la mayoría de las solicitudes universitarias de EE. UU. y, en cambio, están reservados para las aulas y, ocasionalmente, para el examen de ingreso a escuelas privadas; Muchas universidades optan por un proceso de admisión holístico. En México, donde participé en el programa de pasantías de verano del Centro David Rockefeller de Estudios Latinoamericanos (DRCLAS) en el Centro Nacional de la Evaluación para Educación Superior (CENEVAL), descubrí que el papel de los exámenes en el sistema educativo tiene un peso mayor en la vida de los estudiantes que en los Estados Unidos hoy.

CENEVAL—como su nombre lo indica—me familiarizó con las complejidades de los instrumentos de evaluación; sin embargo, la primera experiencia de aprendizaje impactante que tuve al llegar a su centro de operaciones en la Ciudad de México fue una introducción al ambiente de trabajo de oficina. Como estudiante universitario de primera generación de bajos ingresos, los espacios de oficina eran extraños para mí de la misma manera que los ‘housing associations’ (HOA) lo son para cualquier persona que viva afuera de los suburbios, o las escuelas de Título I lo son para las personas que viven dentro de estos vecindarios. Me desconcertó las comodidades, poder bajar corriendo a la cafetería del edificio para cenar o al centro médico para recibir tratamiento fue sorprendente. Además, el entorno de trabajo híbrido provocado por la pandemia sigue siendo un elemento permanente de la organización, y los empleados llegan a la oficina en horarios variados según el departamento. Contrastaba y alineaba en gran medida con los días laborales de 9 a 5 días que había imaginado.

Adaptarme al lugar de trabajo parecía desalentador considerando mi identidad de género, mis pronombres y el hecho de que la neutralidad de género en español todavía está en desarrollo debido a la dependencia del idioma de sustantivos femeninos y masculinos. Sin embargo, mis supervisores y colegas me recibieron con calidez y respeto. Almorzábamos regularmente en la cafetería de la empresa, restaurantes cercanos y los tianguis locales mientras charlábamos acerca de nuestros objetivos profesionales y nos conocíamos a través de nuestras diferencias culturales.

Volviendo al enfoque de las operaciones de CENEVAL, trabajar en el Departamento de Investigación, Calidad Técnica e Innovación Académica (DICTIA) me brindó una mirada interna a los servicios de pruebas actuales y la dirección futura de México. En términos generales, el desarrollo de pruebas es un proceso laborioso con varios componentes y una intensa colaboración. En CENEVAL este proceso se organiza en los siguientes pasos hasta cierto punto: diseño, construcción, verificación, ensamble, aplicación, calificación y mantenimiento. Desde las preguntas piloto hasta la selección del modelo, cada decisión se toma cuidadosamente y de acuerdo con la creación de un examen que sea accesible e intensivo. Pero primero, permítanme darles una breve descripción de cómo se estructuran y suministran las pruebas en México.

En toda la Ciudad de México, los estudiantes recién graduados de secundaria esperan ansiosos los resultados de sus exámenes de admisión a la escuela preparatoria entre mediados y finales del verano. La Comisión Metropolitana de Instituciones Públicas de Educación Media Superior (COMIPEMS) es la comisión encargada de administrar el examen de admisión a las escuelas secundarias públicas de la Ciudad de México. Dependiendo de la institución, se requiere un punto de referencia mínimo para la admisión; las escuelas secundarias más selectivas requieren una puntuación aprobatoria de entre el 60 y el 90 por ciento. Este mínimo también puede variar según una de las dos vías que los estudiantes están abiertos a seguir: académica y técnica.

El sistema educativo en México está regulado por la Secretaría de Educación Pública (SEP) con un sistema nacional de evaluación educativa liderado por el Instituto Nacional para la Evaluación de la Educación (INEE). Además de los COMIPEMS, estas instituciones supervisan una gran cantidad de otros exámenes de ingreso requeridos para la escuela preescolar y postsecundaria. Sin embargo, las instituciones encargadas de pilotear y desarrollar estos exámenes se encuentran más abajo en las ramas del sistema, siendo una de ellas el CENEVAL.

En todas las organizaciones que ofrecen servicios de pruebas, los principales enfoques cuantitativos utilizados para la puntuación son la teoría clásica de los test (TCT) y la teoría de respuesta al ítem (TRI). La teoría de respuesta al ítem fue el foco de mi proyecto más grande durante el programa, ya que desarrollé un módulo interactivo para los nuevos empleados de la empresa. En los últimos años se ha producido un cambio general de la teoría clásica de las pruebas a la teoría de la respuesta al ítem debido a su aplicabilidad a las pruebas adaptativas computarizadas. Por ejemplo, los estudiantes pueden realizar los Exámenes de Registro de Posgrado (GRE) que ofrecen los Servicios de Pruebas Educativas (ETS) en línea en lugar de en un centro de pruebas. Las preguntas del examen cambian según la capacidad del estudiante a medida que avanza en tiempo real.

El propósito de la teoría de respuesta al ítem es predecir resultados basados en la capacidad del estudiante y las características del ítem; Como el ítem es una prueba o una pregunta, a efectos de explicación me centraré en las preguntas como un ítem. Los tres parámetros en los que pueden basarse los modelos TRI son dificultad, discriminación y conjeturas, aunque se utilizan con mucha frecuencia modelos de uno y dos parámetros. La dificultad, como su nombre lo indica, mide la dificultad de la pregunta; esencialmente, qué tan alta debe ser la capacidad del estudiante para alcanzar un 50 por ciento de probabilidad de responder la pregunta correctamente. La discriminación representa qué tan bien la pregunta diferencia a los estudiantes según su capacidad; una pregunta que no puede distinguir entre un estudiante con mayor capacidad y un estudiante con menor capacidad no es ideal. El parámetro de adivinación, o probabilidad de adivinar, se utiliza normalmente para medir qué tan bien funcionan los distractores, las respuestas a la pregunta que no son correctas, que esperaríamos que estuvieran lo más cerca de cero posible.

Por supuesto, esto es sólo una fracción del proceso de desarrollo. Incluso antes de que se produzca la selección del modelo, las preguntas se revisan minuciosamente para garantizar su transparencia y competencia. Los empleados de CENEVAL trabajan con académicos y especialistas externos que desarrollan y revisan las preguntas a medida que se diseñan. Además, las preguntas se prueban y analizan con estos mismos modelos antes de integrarlas completamente en un examen. Lo mismo se aplica a los materiales fuera de los objetivos de las pruebas, como los cuestionarios de contexto que normalmente intentan identificar qué características previas están asociadas con el rendimiento de los estudiantes.

Durante mi pasantía en el CENEVAL, ha sido difícil conciliar la importancia inquebrantable de las pruebas para medir el conocimiento con su capacidad de representar una barrera para la educación. Me encantó aprender acerca de las complejidades de los modelos diseñados durante décadas de investigación en el desarrollo de pruebas, pero sigo teniendo dudas sobre qué tan bien funcionan estos estándares de medición en países colonizados por hombres blancos que moldearon estos sistemas a su favor. No puedo pretender entender completamente el contexto político de la Ciudad de México, incluso como mexicano-estadounidense criado por dos de sus antiguos residentes, crecí en los Estados Unidos y, independientemente de mis antecedentes, mi perspectiva siempre estará distorsionada por el hecho de que soy un extranjero. Sólo puedo comentar de cómo estos sistemas impactan a las personas que amo entendiendo cuán fuertemente influenciadas han estado las pruebas en los Estados Unidos por una intención de exclusión, como en el caso de la Prueba de Aptitud Escolar (SAT).

Una vez que terminó mi programa de pasantías, me quedé con la hermana de mi madre en las afueras de la Ciudad de México y conocí a más miembros de mi familia en la zona. Vengo de una familia numerosa, mi padre tiene once hermanos y mi madre dos. Conocí a uno de mis primos y a sus hijas el fin de semana antes de partir, una de ellas una camarera de quince años a tiempo completo en un restaurante cercano. Se tomo un año de ausencia de la escuela para estudiar el COMIPEMS, insatisfecha con sus resultados en el examen de admisión del año anterior y acababa de retomarlo a principios de junio.

Un examen de admisión similar a nivel estatal había impedido que mi madre asistiera a la escuela secundaria en la misma ciudad, casi quince años antes del establecimiento de la COMIPEMS. Trabajó como empleada de limpieza durante toda la secundaria nocturna y completó el equivalente estadounidense del primer año de preparatoria, o educación pre-preparatoria en el contexto de la Ciudad de México, ya que la preparatoria dura tres años en lugar de cuatro. Desafortunadamente, no alcanzó el puntaje mínimo requerido para ingresar a ninguna escuela preparatoria pública mexicana, y abandonó por completo la escuela para concentrarse en su sustento.

Cuarenta años después, mi madre actualmente está trabajando para obtener su diploma preparatoria después de aprobar su Educación Básica de Adultos (EBA). Pasamos los fines de semana en el calor abrasador de California sentados en la mesa del comedor estudiando juntos mientras yo me quejo de lo costosas que son las tarifas de inscripción al GRE y ella de las dificultades de volver a desarrollar hábitos de estudio. Independientemente del tiempo y el nivel educativo, aprobar exámenes es un proceso lleno de trabajo duro y estrés para ambos.

Se exige a los estudiantes un cierto nivel de rigor, cuyos exámenes están construidos para medir e incluso incentivar. Evalúan la eficacia de los planes de estudio y si los estudiantes han alcanzado los objetivos de aprendizaje que tanto necesitan. Además, su desarrollo no se toma a la ligera, con horas y horas de análisis y rediseño en casi todas las etapas y una firme intención hacia la equidad. Sin embargo, todavía corremos el riesgo de perder perspectivas valiosas a medida que eliminamos el “fracaso”. Más importante aún, corremos el riesgo de comprometer la movilidad social y el amor por el aprendizaje entre los más vulnerables dependiendo de su aplicación, como pueden atestiguar mi madre y mi prima.

More Student Views

Print Friendly, PDF & Email
Subscribe
to the
Newsletter