Telegram Group Search
Уходит эпоха — из OpenAI уходит Alec Radford, один из самых ранних и известных (и непубличных) исследователей. Он был первым автором статей про GPT-1 и GPT-2, а также работы Unsupervised sentiment neuron, напрямую им предшествующей.

В четверг он сообщил коллегам, что уходит, чтобы продолжить независимые и самостоятельные исследования. Alec написал, что планирует сотрудничать с OpenAI, а также с другими разработчиками ИИ-моделей.

Radford носит легендарный характер — о его блестящей интуиции исследователя и инженера ходит много баек (и все правдивые).
3 дня назад в чате писал, что от 2025-го года у меня пока главное ожидание — это ни GPT-5, ни Claude 4, ни LLAMA 5o, а o2 (pro, если будет). Хотел оставить этот пост на конец года и отправить под НГ.

Почему o2:
1) она будет обучена поверх базовой модели Orion (GPT-5), то есть сама по себе мощнее, лучше понимать картинки и тексты, иметь больше знаний, общаться на разных языках ещё лучше. Это само по себе вкупе с процессом дообучения o1 принесёт приумножающиеся плоды
2) o1 — самая первая модель новой линейки, в которой некоторые вещи могли быть сделаны просто так, потому что на тщательное тестирование и проверки не было времени. Или какие-то вещи не сделаны вовсе. Поэтому осталась куча так называемых low hanging fruits, которые в релиз следующей модели уже попадут.
3) при релизе o1 OpenAI показывали два графика масштабирования качества от количества ресурсов: один — от длины цепочки рассуждений, а другой — от длительности самого процесса дообучения, когда поверх базовой модели «прививаются» рассуждения. Больше задач, больше возможных вариантов, больше всего — и как результат лучше модель. Так как у OpenAI уже освободились ресурсы от тренировки Orion, то в эту часть обучения можно будет вбухать на порядок больше мощностей, что даже при неизменных длинах цепочек рассуждений улучшит результаты по всем направлениям ещё на сколько-то
4) как результат всего вышеперечисленного — более длительные цепочки рассуждений, потенциально покрывающие более широкий набор задач (условно сейчас 3-5 минут, а станет 10 или даже 15-20 минут).

Очень условно, если o1 можно воспринимать как хоть и законченное, но демо технологии, то o2 будет сформированным продуктом.

===

TheInformation пишут, что OpenAI рассматривает возможность пропустить o2 и перейти сразу к o3, но не по тем причинам, которые вы могли придумать — всё дело в конфликте имён с британским телекоммуникационным провайдером. Некоторые руководители внутри компании уже называют эту модель o3. Столько шуток про «не хватает как кислорода» потеряем...

===

Вчера на стриме OpenAI упомянули, что сегодня, в последний день презентации, нас ждёт большой сюрприз; и будет присутствовать CEO компании Sam Altman (он пропускал менее приоритетные дни). «ho ho ho 🎅 увидимся завтра» — написал он в Твиттере, а после дал одну (возможно, саркастическую) подсказку: «должен был сказать oh oh oh».

И началось, кто-то в этом видит намёк на анонс или даже релиз Orion (в поясе Ориона, в честь которого назван проект GPT-5, 3 звезды), кто-то — на целых три релиза (Orion, Operator, Omnimodal), кто-то в свете новостей про переименование o2 в o3 пишет свои догадки про свежую модель с рассуждениями. В последнее я точно не верю, ну не должно быть такой быстро смены поколений. В GPT-5 без 4.5 персонально мне верится с трудом (хотя чисто в теории может быть). А Operator планировали показать в январе.

Ну а как будет на самом деле, и чьи домысли были ближе всего к реальности — узнаем сегодня в 21:00 по Москве. Рекомендую прийти, а не пропустить, как прошлые (скучные) демо-дни.
Стрим OpenAI через 55 минут тут: https://www.youtube.com/live/SKBG1sqdyIU

Будет Sama, CEO компании, Mark Chen, Head of frontiers research, и Hongyu Ren, "Creator of OpenAI o1-mini; Foundational contributor to OpenAI o1. Leads of GPT-4o mini; Core contributor to GPT-4o. "

UPD: описание обновили, теперь там значится четвертый участник, a special guest. 👀 ктойто
Please open Telegram to view this post
VIEW IN TELEGRAM
Две модели, o3 и o3-mini, публично доступно не будет, только для тестирования на безопасность (mini-версия)
Программисты не нужны
Математика и задачи со свежего AIME
ARC бенчмарк — В С Ё!

Это очень HUGE, метрики больше чем у людей на закрытых данных, которые "показывают что модели не могут думать"
Для тех, кто не понимает в бенчмарках:
все цифры которые показывают — невероятные, немыслимые полгода назад. Например, ARC использовался долгое время как доказательство того, что модели не могут думать. Мол, если могут — чего ж они так плохо решают? Ну, вот...решают...
Метрики o3-mini по сравнению со старшей версией в задачах на программирование

Как и у o1, доступно несколько режимов рассуждений (влияет на цену и длительность).

o3-mini будет сильно дешевле и быстрее, чем o3 (очевидно), и предложит невероятные навыки за свою цену.
Цены на прогон модели на ARC Benchmark

Шкала OX — логарифмическая 👀

o3 low не выглядит как очень дорогая
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from даня ₊˚⊹
также в их твиттере косты на модель, o3 стоит 1,5k$ судя по графику 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
o3-mini на математике с разными длинами цепочек рассуждений
o3-mini планируют запустить в конце января, и o3 немногим после этого. Чем больше тестировщиков безопасности будет, тем быстрее станет доступно всем

НА ЭТОМ — ВСЁ!
Забавные моменты:
* получить 91% на 400 примерах public arc-agi стоило x172 больше ресурсов чем на 82%. Похоже больше ляма баксов (6677*172 = 1148444) если в деньгах.
* авторы ARC-AGI все же не думают что это AGI.

😏
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2024/12/20 20:40:18
Back to Top
HTML Embed Code: