OpenAI está lanzando un nuevo modelo llamado o1, el primero de una serie planificada de modelos de «razonamiento» que han sido entrenados para responder preguntas más complejas, más rápido de lo que puede hacerlo un humano. Se lanzará junto con o1-mini, una versión más pequeña y económica. Y sí, si estás inmerso en los rumores sobre IA: este es, de hecho, el modelo Strawberry extremadamente publicitado.
Para OpenAI, o1 representa un paso hacia su objetivo más amplio de inteligencia artificial similar a la humana. En términos más prácticos, hace un mejor trabajo al escribir código y resolver problemas de varios pasos que los modelos anteriores. Pero también es más caro y más lento de usar que GPT-4o. OpenAI llama a esta versión de o1 una “vista previa” para enfatizar lo incipiente que es.
Los usuarios de ChatGPT Plus y Team obtienen acceso a o1-preview y o1-mini a partir de hoy, mientras que los usuarios de Enterprise y Edu tendrán acceso a principios de la próxima semana. OpenAI dice que planea brindar acceso a o1-mini a todos los usuarios gratuitos de ChatGPT, pero aún no ha fijado una fecha de lanzamiento. El acceso de los desarrolladores a o1 es realmente costoso: en la API, la vista previa de o1 cuesta $15 por cada millón de tokens de entrada, o fragmentos de texto analizados por el modelo, y $60 por cada millón de tokens de salida. A modo de comparación, GPT-4o cuesta 5 dólares por 1 millón de tokens de entrada y 15 dólares por 1 millón de tokens de salida.
La capacitación detrás de o1 es fundamentalmente diferente de la de sus predecesores, me dice el líder de investigación de OpenAI, Jerry Tworek, aunque la compañía es vaga acerca de los detalles exactos. Dice que o1 «ha sido entrenado utilizando un algoritmo de optimización completamente nuevo y un nuevo conjunto de datos de entrenamiento diseñado específicamente para ello».
OpenAI enseñó a modelos GPT anteriores a imitar patrones de sus datos de entrenamiento. Con o1, entrenó al modelo para resolver problemas por sí solo utilizando una técnica conocida como aprendizaje por refuerzo, que enseña al sistema a través de recompensas y penalizaciones. Luego utiliza una “cadena de pensamiento” para procesar consultas, de manera similar a cómo los humanos procesan los problemas repasándolos paso a paso.
Fuente: The Verge | Kylie Robinson
Para leer más ingresa a: https://www.theverge.com/2024/9/12/24242439/openai-o1-model-reasoning-strawberry-chatgpt