Cómo cambiar la evaluación de escritura en un mundo GPT

Creo que tengo un nuevo mantra sobre cómo los profesores deberían pensar acerca de abordar las tareas de escritura y evaluación de los estudiantes en esta nueva era de ChatGPT.

Es una idea un poco retrospectiva, tomada del reality show seminal de MTV, El mundo realel eslogan utilizado al final del título de apertura y los créditos: «Es hora de descubrir qué sucede cuando las personas dejan de ser educadas y comienzan a ser realistas».

Este pensamiento fue provocado por un artículo reciente publicado en Matthew Yglesias’s aburrido lento boletín escrito por la pasante del boletín y actual estudiante de Harvard, Maya Bodnick.

Más popular

Como experimento, Bodnick alimentó versiones de indicaciones de asignación de clase de cursos de primer año en GPT-4 y luego hizo que los calificadores reales de los cursos asignaran puntajes. Para evitar sesgos, se les dijo a los calificadores que la escritura podría ser humana o de IA, pero en realidad, todo fue escrito por IA.

El bot lo hizo bastante bien, en cuanto a calificaciones:

Microeconomía: A-menos
Macroeconomía: A
Política latinoamericana: B-menos

La presidencia estadounidense: una
Resolución de Conflictos: A
Español intermedio: B

Escritura expositiva: C
Seminario Proust: Aprobar

La principal respuesta inicial al artículo, incluida la mía, fue concentrarse en la naturaleza bastante poco inspiradora de las asignaciones en sí mismas, por ejemplo, esta del curso de Política latinoamericana: “¿Qué ha causado las muchas crisis presidenciales en América Latina? en las últimas décadas (5-7 páginas)?”

Si bien comparto la preocupación de muchos que miran las indicaciones y se preguntan qué está pasando, es importante recordar que estas tareas están descontextualizadas del marco más amplio de los cursos individuales. Solo sabemos lo que se compartió en la pieza, que no es mucho.

Por ejemplo, estoy algo familiarizado con el Programa de Escritura de la Universidad de Harvard, que es responsable de los cursos Expos, y sé que una tarea que pide a los estudiantes que escriban una lectura detallada de cuatro a cinco páginas de Marcha media sin contexto o propósito adicional no es consistente con el ethos que sustenta el programa.

Tan bien. Es divertido tomar algunas fotos en Harvard cuando parece que no son todo eso, y me reservo el derecho de hacerlo a perpetuidad, pero la información disponible brinda una oportunidad más interesante para obtener información sobre cómo operar en un GPT. mirando más de cerca estos artefactos producidos por GPT y las respuestas del instructor.

Primero, debemos reconocer un par de verdades: 1. No existe una detección confiable de texto producido por un modelo de lenguaje grande. Vigilar estas cosas a través de la tecnología es una tontería. Y 2. Si bien es mucho lo que se debe hacer en términos del diseño de la asignación para mitigar el posible uso indebido de los LLM, es imposible probar una asignación mediante GPT.

Esto significa que el enfoque principal, como he estado diciendo desde que vi por primera vez una versión anterior de GPT en funcionamiento, debe estar en cómo evaluamos y respondemos a la escritura de los estudiantes.

El hecho de que es imposible hacer una prueba de GPT para una tarea se me hizo evidente específicamente por una de las tareas de muestra que es bastante parecida a una que uso en mi texto. La práctica del escritor. En el curso sobre resolución de conflictos, se pide a los estudiantes que “describan un conflicto en su vida y den recomendaciones sobre cómo negociarlo (7-9 páginas)”.

En un meta giro, GPT escribió un artículo desde el punto de vista de un estudiante cuyo compañero de cuarto usa IA generativa para hacer sus tareas y siente que esto es una trampa. Obtuvo una A del instructor, incluidos algunos elogios muy fuertes:

A mi oído, el ensayo está escrito en una especie de tono empalagoso de un estudiante diligente que actúa diligentemente y trata de impresionar, por ejemplo, «Neil, verás, es un estudiante increíble, brillante y diligente, con un talento natural para resolver problemas complejos». ecuaciones y decodificando los misterios de la física cuántica. Hemos estado compartiendo no solo nuestra habitación, sino también nuestros viajes académicos desde que éramos estudiantes de primer año, apoyándonos mutuamente durante las noches en vela, la ansiedad por los exámenes y la extraña crisis existencial. Sin embargo, en nuestro último año, encontré mi fe en él, y en nuestra amistad, sacudida”.

No llamaría a esto buena escritura en ningún contexto fuera de una tarea escolar. Es extraño, una farsa para impresionar a un maestro, no un intento genuino de comunicación. Este es un estudiante que dice: «Mira lo inteligente que soy», lo cual no es algo particularmente difícil de hacer para GPT (o la mayoría de los estudiantes).

Para alejarse de este tipo de actuación, es hora de dejar de ser cortés y empezar a ser real.

Lo más importante que hago en mi versión de la experiencia de resolución de conflictos es convertir la tarea en tres escritos diferentes, completados en secuencia.

La primera es literalmente una carta diatriba, dirigida a la persona con la que el estudiante está en conflicto, en la que les digo a los estudiantes que se la den, sin restricciones. Para el estudiante, este ejercicio sirve como una especie de catarsis a medida que descarga su ira y resentimiento reprimidos en el objetivo (en la página, al menos).

Luego, hago que los estudiantes intercambien diatribas en un taller donde se les da un proceso para leer la diatriba de su colega y luego imaginar cómo la recibiría el destinatario de la diatriba. La respuesta en casi todos los casos es: no muy bien.

Aquí hablamos sobre los enfoques para la resolución de conflictos, la sensibilidad retórica y cómo podrían analizar la disputa de una manera que crearía una solución beneficiosa para todos, en lugar de involucrarse en una serie de escaladas.

Después de eso, escriben una segunda carta a la persona con la que están en conflicto, esta vez tratando de expresar su comprensión de la perspectiva del otro y luego trasladando la conversación a un territorio donde se podría forjar esa solución.

¡Pero espera hay mas! La pieza final de escritura es una breve pieza reflexiva en la que los estudiantes analizan sus propias elecciones retóricas, comparan y contrastan las dos cartas, y luego pasan tiempo pensando en sus propios estados emocionales mientras trabajaban en las diferentes piezas. Muchos se dan cuenta de que si bien estar enojado proporciona una carga emocional breve y emocionante, se sienten tangiblemente mejor cuando trabajan en la resolución de conflictos.

En lugar de demostrar el conocimiento del contenido en el contexto de una situación real escribiendo a un maestro (cortés), hago que los estudiantes aborden directamente la situación (real). Sin duda, mi enfoque es menos «académico», pero requiere la aplicación de los mismos conceptos, posiblemente de una manera más sofisticada y desafiante.

Otro ejemplo del experimento en el que el marco «deje de ser cortés y comience a ser realista» agregaría valor es la respuesta GPT a la pregunta sobre la presidencia de Harry Truman.

El estilo de la respuesta es una verdadera clase magistral de BS pseudoacadémica, el tono elevado diseñado para indicarle a un maestro que el alumno es inteligente, pero también se lee como una actuación de «estudiante» en lugar de un estilo genuino proveniente de una inteligencia única. Esta es la apertura del periódico:

“La presidencia estadounidense es un emblema de poder político y liderazgo que ha sido dirigido por una mezcla de personalidades, cada una con ideologías y estilos de gobierno distintos. Entre el panteón de presidentes estadounidenses, el mandato de Harry S. Truman se destaca como un período convincente de éxitos profundos y fracasos notables. El período presidencial de Truman estuvo enmarcado por un mundo de posguerra, un paisaje salpicado de desafíos y oportunidades por igual. Su presidencia estuvo marcada por decisiones fundamentales, cambios de política e iniciativas innovadoras que han seguido resonando en los pasillos de la historia. Sin embargo, junto con sus triunfos, su mandato también se caracterizó por varias decepciones y errores”.

Si bien la prosa es fluida e incluso intenta una especie de estilo, por ejemplo, «guiado por una mezcla de personalidades», una vez que pasa esa fluidez superficial, literalmente no dice nada más que «Harry Truman hizo algunas cosas buenas y algunas cosas malas.»

Este tipo de desempeño ha sido tradicionalmente muy valorado en contextos académicos. Esto parece diligencia y habilidad, pero en realidad es exactamente eso, una actuación. Mis alumnos me decían con entusiasmo todas las diferentes formas en que se desempeñaron para los maestros en sus tareas de escritura, asegurándose de darles las cosas que estaban buscando, a menudo cosas superficiales, como transiciones básicas, que esencialmente enviaban un mensaje: Soy un buen estudiante que está prestando atención..

Este era yo. Era un tonto por asegurarme de que los estudiantes usaran verbos afirmativos al resumir las fuentes. Si tenía un verbo de reclamo, obtuvo al menos una B. Si el reclamo fue del todo exacto… A.

Esta barra es demasiado baja, no solo porque GPT puede superarla, sino porque no brinda a los estudiantes algo sustantivo para masticar.

Este trabajo es muy educado, pero no se necesitaría mucho para hacerlo realidad. Simplemente requiere que el estudiante desarrolle y exprese su propia opinión sobre el tema en cuestión. Idealmente, es más específico que Truman fue un buen o mal presidente. Encuentre un mensaje o marco que les pida a los estudiantes que reflexionen sobre el pasado en el contexto de lo que saben y creen sobre el mundo.

Cuando se trata de eso, ¿no es este el trabajo real de los eruditos?

El último ejemplo en el que creo que el marco «deja de ser cortés y comienza a ser realista» nos ayuda a repensar la evaluación es en calificaciones que no son A: B en español intermedio, B-menos en Política latinoamericana y C en escritura expositiva. .

Nuevamente, no tenemos el contexto para evaluar completamente el significado de las calificaciones específicas, pero los comentarios compartidos por Bodnick sugieren que los evaluadores encontraron deficiencias fundamentales en la redacción.

El profesor español dijo que el artículo “no tenía análisis”. El profesor de Política Latinoamericana dice, en esencia, que la tesis está equivocada y sin sustento. El instructor de Escritura Expositiva nuevamente dice que el esfuerzo carece de análisis.

Los comentarios están en el objetivo, pero un sistema de calificación tradicional de A a F permite que se apruebe la salida pro forma de GPT. Aquí es donde podemos ser realistas al cambiar la forma en que vemos las calificaciones.

En lugar de aprobar este desempeño, simplemente solicite una revisión hasta que alcance el umbral específico para aprobar. Este criterio puede cambiar de una tarea a otra, pero en los casos anteriores, si el objetivo es que el estudiante produzca análisis, no acepte la tarea para crédito hasta que alcance ese umbral.

Aquí es donde las estrategias de calificación alternativas funcionan bien, porque no les digo a los estudiantes que han «reprobado». Les digo que no han terminado. Si han utilizado GPT para hacer el trabajo por ellos, tal vez estén convencidos de intentar hacerlo ellos mismos la próxima vez y ahorrarse la molestia.

O si van a seguir usando GPT, al menos deben ser más reflexivos y decididos sobre cómo están empleando la herramienta. Tal vez aprendan algunos de los principios en torno al pensamiento crítico que estoy tratando de llevar a casa en el proceso.

Las soluciones que ofrece Bodnick se basan en una noción muy limitada de lo que es la escuela e ilustran cuán profundamente está dentro del sistema existente la idea de desempeñarse para obtener un grado, en lugar de demostrar el aprendizaje. Intentar que GPT no se pueda usar mientras se mantiene el statu quo de lo que les pedimos a los estudiantes que hagan es un fracaso al aprovechar la oportunidad de repensar enfoques que ya no funcionan.

Los ensayos en persona o los exámenes supervisados están absolutamente sesgados hacia los intérpretes competentes (e incluso los tontos), ya que los estándares de contenido y análisis se reducen debido a las presiones del tiempo. Esta fue la razón principal por la que gravité hacia las clases con estas evaluaciones en la universidad.

¿Por qué retroceder cuando GPT nos brinda una perspectiva para pensar en nuevas y mejores formas de involucrar y enseñar a los estudiantes?

Seamos realistas.