Algo está cambiando en ChatGPT, pero nadie parece ponerse de acuerdo en cuál es exactamente el problema o por qué está ocurriendo. El caso es que los usuarios de GPT-4, el modelo de lenguaje de pago se quejan de que su rendimiento se degrada con el tiempo, ofreciendo cada vez más falsas respuestas y negándose a ejecutar comandos que antes hacía bien. Un nuevo estudio muestra que, efectivamente, la IA ha pasado por cambios, aunque no como los usuarios esperan.
Por: Gizmodo
El estudio procede de investigadores de las Universidades de Stanford y UC Berkeley, y acaba de ser aceptado en ArXiv. En él sus autores aseguran que GPT-4 y GPT-3.5 responden de manera diferente a como lo hacían hace unos meses, y los cambios no son todos a mejor. GPT-4, por ejemplo está dando peores respuestas a preguntas complicadas de matemáticas. Antes, por ejemplo, era capaz de responder con exactitud sobre números primos largos. Ahora esa exactitud ha decrecido hasta el punto de que solo el 2,4% de las respuesta que da al respecto son correctas.
Simultáneamente, las versiones anteriores del modelo de lenguaje explicaban sus procesos de manera más transparente. Ahora, sin embargo, el chatbot parece reacio a explica cómo llega a las respuestas paso a paso. Entre marzo y junio de este año, GPT-3.5 responde mejor a problemas de matemáticas básicos incluso aunque su código es menos avanzado.
We evaluated #ChatGPT's behavior over time and found substantial diffs in its responses to the *same questions* between the June version of GPT4 and GPT3.5 and the March versions. The newer versions got worse on some tasks. w/ Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6
— James Zou (@james_y_zou) July 19, 2023
Puedes leer la nota completa en Gizmodo