De los creadores de Sam Altman lidera el comité que vigila los desarrollos de Sam Altman, llega GPT-4 supervisará a GPT-4

admin27 junio, 2024

92 2 minutos de lectura

“GPT-4 para detectar los errores de GPT-4”, con estas palabras ha presentado el presidente de OpenAI, Greg Brockman, la más reciente propuesta de la compañía de inteligencia artificial para mejorar su modelo insignia en el campo de la programación. Estamos hablando de CriticGPT, un modelo basado en GPT-4 diseñado específicamente para detectar errores en la salida de código de ChatGPT.

La firma respaldada por Microsoft asegura que CriticGPT ha demostrado ser muy efectivo para ayudar a las personas a detectar errores en las respuestas del famoso chatbot. En pruebas internas, explican, los resultados de las personas que recibieron la ayuda de CriticGPT superaron en un 60% a las que hicieron el trabajo en solitario. Ahora, este modelo está listo para pasar a la siguiente etapa.

Una nueva herramienta para el aprendizaje por refuerzo

En las tareas de entrenamiento de modelos como GPT-4 entra en escena lo que se conoce como aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Se trata de una técnica de machine learning que, en líneas generales, utiliza respuestas creadas por humanos, los llamados entrenadores de la IA, para mejorar la precisión del modelo para determinadas tareas.

OpenAI comenzará a desplegar modelos similares a CriticGPT entre sus entrenadores para ayudarles a detectar los errores cada vez más sutiles que suele reproducir GPT-4 a través de ChatGPT. “Este es un paso para poder evaluar los resultados de los sistemas avanzados de IA que pueden ser difíciles de calificar para las personas sin mejores herramientas”, ha dicho la compañía en su blog.

Code Desktop Light

Pero, ¿cómo funciona CriticGPT? Como podemos ver en la imagen de arriba, el modelo escribe “críticas” a las respuestas de ChatGPT. Estas críticas no siempre son correctas, pero pueden ayudar a los entrenadores humanos a visibilizar problemas que podrían haber pasado desapercibidos. OpenAI describe a esta mecánica como una “asistencia” para el proceso de RLHF.

Gpt 4

CriticGPT, al estar basado en GPT-4, también pasó por el proceso de aprendizaje por refuerzo a partir de la retroalimentación humana. Por curioso que parezca, a la luz de las pruebas, parece ser una buena idea para que ChatGPT basado en GPT-4 mejore en tareas de programación, campo donde algunos estudios han alertado el importante porcentaje de respuestas incorrectas del modelo.

En Xataka Una cadena de jugueterías acaba de publicar el primer spot publicitario creado con Sora: el realismo se queda a medio camino

La compañía también está tratando de mejorar la seguridad de sus modelos después de la disolución de su equipo de "superalineación". Para ello tiene un comité que está liderado por Sam Altman. Una de las misiones de este comité es presentar recomendaciones al consejo de administración presidido por Greg Brockman, pero de la compañía que tiene como CEO a Sam Altman.

Imágenes | OpenAI | Milad Fakurian | Village Global

En Xataka | YouTube ve un futuro en el que la IA clonará la música actual. Convencer a las discográficas no va a ser nada fácil

–
La noticia De los creadores de Sam Altman lidera el comité que vigila los desarrollos de Sam Altman, llega GPT-4 supervisará a GPT-4 fue publicada originalmente en Xataka por Javier Marquez .

admin27 junio, 2024

92 2 minutos de lectura

Una nueva herramienta para el aprendizaje por refuerzo

admin

Publicaciones relacionadas

Viajar a México sin salir de casa y preservar la cultura tiene un precio: un titánico trabajo de digitalización

Microsoft añadió por error una opción para desinstalar la polémica característica Recall de Windows 11. Por error

Meta acaba de abrir el SO de las Meta Quest: Microsoft, Lenovo y Asus serán los primeros en utilizarlo en gafas propias

Con una cámara de 200 MP, este Xiaomi es uno de los móviles que te recomiendo si te gusta la fotografía

Una línea verde ha aparecido en la pantalla de algunos Samsung Galaxy. La única solución es remplazar el panel