seeallochnaya Telegram Group

Сиолошная

Уходит эпоха — из OpenAI уходит Alec Radford, один из самых ранних и известных (и непубличных) исследователей. Он был первым автором статей про GPT-1 и GPT-2, а также работы Unsupervised sentiment neuron, напрямую им предшествующей.

В четверг он сообщил коллегам, что уходит, чтобы продолжить независимые и самостоятельные исследования. Alec написал, что планирует сотрудничать с OpenAI, а также с другими разработчиками ИИ-моделей.

Radford носит легендарный характер — о его блестящей интуиции исследователя и инженера ходит много баек (и все правдивые).

The Information

Senior OpenAI Researcher Radford Departs

Alec Radford, an OpenAI researcher who helped develop some of its most important artificial intelligence, on Thursday told colleagues he was leaving to pursue research independently. Radford said he planned to collaborate with OpenAI as well as other AI…

17.3K viewsedited 21:06

Сиолошная

3 дня назад в чате писал, что от 2025-го года у меня пока главное ожидание — это ни GPT-5, ни Claude 4, ни LLAMA 5o, а o2 (pro, если будет). Хотел оставить этот пост на конец года и отправить под НГ.

Почему o2:
1) она будет обучена поверх базовой модели Orion (GPT-5), то есть сама по себе мощнее, лучше понимать картинки и тексты, иметь больше знаний, общаться на разных языках ещё лучше. Это само по себе вкупе с процессом дообучения o1 принесёт приумножающиеся плоды
2) o1 — самая первая модель новой линейки, в которой некоторые вещи могли быть сделаны просто так, потому что на тщательное тестирование и проверки не было времени. Или какие-то вещи не сделаны вовсе. Поэтому осталась куча так называемых low hanging fruits, которые в релиз следующей модели уже попадут.
3) при релизе o1 OpenAI показывали два графика масштабирования качества от количества ресурсов: один — от длины цепочки рассуждений, а другой — от длительности самого процесса дообучения, когда поверх базовой модели «прививаются» рассуждения. Больше задач, больше возможных вариантов, больше всего — и как результат лучше модель. Так как у OpenAI уже освободились ресурсы от тренировки Orion, то в эту часть обучения можно будет вбухать на порядок больше мощностей, что даже при неизменных длинах цепочек рассуждений улучшит результаты по всем направлениям ещё на сколько-то
4) как результат всего вышеперечисленного — более длительные цепочки рассуждений, потенциально покрывающие более широкий набор задач (условно сейчас 3-5 минут, а станет 10 или даже 15-20 минут).

Очень условно, если o1 можно воспринимать как хоть и законченное, но демо технологии, то o2 будет сформированным продуктом.

===

TheInformation пишут, что OpenAI рассматривает возможность пропустить o2 и перейти сразу к o3, но не по тем причинам, которые вы могли придумать — всё дело в конфликте имён с британским телекоммуникационным провайдером. Некоторые руководители внутри компании уже называют эту модель o3. Столько шуток про «не хватает как кислорода» потеряем...

===

Вчера на стриме OpenAI упомянули, что сегодня, в последний день презентации, нас ждёт большой сюрприз; и будет присутствовать CEO компании Sam Altman (он пропускал менее приоритетные дни). «ho ho ho 🎅 увидимся завтра» — написал он в Твиттере, а после дал одну (возможно, саркастическую) подсказку: «должен был сказать oh oh oh».

И началось, кто-то в этом видит намёк на анонс или даже релиз Orion (в поясе Ориона, в честь которого назван проект GPT-5, 3 звезды), кто-то — на целых три релиза (Orion, Operator, Omnimodal), кто-то в свете новостей про переименование o2 в o3 пишет свои догадки про свежую модель с рассуждениями. В последнее я точно не верю, ну не должно быть такой быстро смены поколений. В GPT-5 без 4.5 персонально мне верится с трудом (хотя чисто в теории может быть). А Operator планировали показать в январе.

Ну а как будет на самом деле, и чьи домысли были ближе всего к реальности — узнаем сегодня в 21:00 по Москве. Рекомендую прийти, а не пропустить, как прошлые (скучные) демо-дни.

12.2K viewsedited 07:58

Сиолошная

Стрим OpenAI через 55 минут тут: https://www.youtube.com/live/SKBG1sqdyIU

Будет Sama, CEO компании, Mark Chen, Head of frontiers research, и Hongyu Ren, "Creator of OpenAI o1-mini; Foundational contributor to OpenAI o1. Leads of GPT-4o mini; Core contributor to GPT-4o. "

UPD: описание обновили, теперь там значится четвертый участник, a special guest. 👀 ктойто

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

12 Days of OpenAI: Day 12

Begins at 10am PT

Join Sam Altman, Mark Chen, and Hongyu Ren for the final day of 12 Days of OpenAI.

9.5K viewsedited 17:07

Сиолошная

Стрим OpenAI через 55 минут тут: https://www.youtube.com/live/SKBG1sqdyIU Будет Sama, CEO компании, Mark Chen, Head of frontiers research, и Hongyu Ren, "Creator of OpenAI o1-mini; Foundational contributor to OpenAI o1. Leads of GPT-4o mini; Core contributor…

early evals of o3 ЧТО?

8.9K views17:50

Сиолошная

Две модели, o3 и o3-mini, публично доступно не будет, только для тестирования на безопасность (mini-версия)

8.4K views18:01

Сиолошная

Программисты не нужны

9.5K viewsedited 18:02

Сиолошная

Математика и задачи со свежего AIME

8.4K views18:03

Сиолошная

FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI Самый сложный бенчмарк по математике для LLM от Epoch AI. Если сейчас зачастую у новых наборов проблем передовые нейронки решают 30-50% задач, то в этом суммарно все они, от Grok…

метрики на свежем бенчмарке неопубликованных задач, про которые я писал тут

8.2K viewsedited 18:05

Сиолошная

ARC бенчмарк — В С Ё!

Это очень HUGE, метрики больше чем у людей на закрытых данных, которые "показывают что модели не могут думать"

8.5K views18:08

Сиолошная

Для тех, кто не понимает в бенчмарках:
все цифры которые показывают — невероятные, немыслимые полгода назад. Например, ARC использовался долгое время как доказательство того, что модели не могут думать. Мол, если могут — чего ж они так плохо решают? Ну, вот...решают...

8.1K viewsedited 18:09

Сиолошная

Метрики o3-mini по сравнению со старшей версией в задачах на программирование

Как и у o1, доступно несколько режимов рассуждений (влияет на цену и длительность).

o3-mini будет сильно дешевле и быстрее, чем o3 (очевидно), и предложит невероятные навыки за свою цену.

7.9K viewsedited 18:12

Сиолошная

Цены на прогон модели на ARC Benchmark

Шкала OX — логарифмическая 👀

o3 low не выглядит как очень дорогая

Please open Telegram to view this post

VIEW IN TELEGRAM

7.7K viewsedited 18:15

Сиолошная

Forwarded from даня ₊˚⊹

также в их твиттере косты на модель, o3 стоит 1,5k$ судя по графику 🙂

Please open Telegram to view this post

VIEW IN TELEGRAM

8.5K views18:15

Сиолошная

o3-mini на математике с разными длинами цепочек рассуждений

8.1K views18:17

Сиолошная

o3-mini планируют запустить в конце января, и o3 немногим после этого. Чем больше тестировщиков безопасности будет, тем быстрее станет доступно всем

НА ЭТОМ — ВСЁ!

8.0K views18:22

Сиолошная

Подаёмся на раннее тестирование на безопасность тут: https://openai.com/index/early-access-for-safety-testing/

Openai

Early access for safety testing

We're offering safety and security researchers early access to our next frontier models.

7.4K views18:31

Сиолошная

Forwarded from Агенты ИИ | AGI_and_RL

Забавные моменты:
* получить 91% на 400 примерах public arc-agi стоило x172 больше ресурсов чем на 82%. Похоже больше ляма баксов (6677*172 = 1148444) если в деньгах.
* авторы ARC-AGI все же не думают что это AGI.

😏

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

5.9K views19:17

Сиолошная

Из свежего эссе Sam Altman «The Intelligence Age»: > В ближайшие несколько десятилетий мы сможем делать то, что нашим прародителям казалось бы волшебством. Это явление не ново, но оно будет ускоряться ещё больше. Со временем люди стали значительно более способными;…

Please open Telegram to view this post

VIEW IN TELEGRAM

4.3K views20:03

Сиолошная

Please open Telegram to view this post

VIEW IN TELEGRAM

3.3K views20:18

2024/12/20 20:40:18
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>