Telegram Group Search
Немного подвожу итоги вчерашней презентации. Кажется, сами OpenAI не восприняли её супер-серьёзно:
— никаких C-levels или VP (типа моего любимца Mark Chen) на трансляции
— блогпост примерно в 3 раза короче, чем у GPT-4, и количество замеров тоже куда меньше
— до этого в новостях была ровно одна (1) утечка о релизе на этой неделе, и никаких деталей. Про 4o и o1 было больше, потому что про проекты внутри говорили больше

Частично это может быть связано с тем, что в компании понимают, что на фоне reasoning-моделей приросты могут казаться блеклыми (но не обманывайтесь).

Я писал, что жду от анонса большого количества практических примеров того, что модель лучше, и журил за их отсутствие Google и xAI. Чтоб выразить в качестве оценки по пятибальной, давайте скажу, что Grok 3 показали на двойку, Gemini 2.0 Pro на тройку с минусом, GPT-4.5 на тройку с плюсом. Может, это потому, что в модели ничего нет?

Да нет же, вот буквально первый попавшийся мне в ленте блогпост от компании box.ai — они замерили качество в своем внутреннем бенчмарке на 510 юридических документов извлечение более чем 20'000 сущностей. Модель справилась на 19% лучше, чем 4o, а в отдельных категориях приросты были ещё больше (см. картинку). Правда, на отдельной подвыборке более сложных документов (200+ страниц, есть картинки) модель не во всём лучше 4o, в одной категории даже сильно проиграла (~25%, но там количество документов маленькое, наверное, и это условно может быть разница в 2-3 документа) — это на картинке #2.

Готов спорить, что если бы датасет перевели на какой-то другой язык, да в идеале как можно более редкий, то качественный скачок был бы ещё заметнее. В профильном чате и даже у меня в комментариях, например, отметились люди, говорящие на армянском — и они отметили улучшения в общении/переводе у GPT-4.5.

Но.. OpenAI этого не сделали! Они точно могли сказать, мол, «мы запартнерились с компанией Х, посчитали метрики У, и прирост вау» — и такое сделать с 3-5 компаниями. Причём, я не сомневаюсь, что такие кейсы реально можно будет найти, главная загадка почему они этого не сделали. Спешка? Хз, модель была обучена в сентябре, то есть в декабре-январе точно могли делать первые тесты.

OpenAI говорят (а некоторые сотрудники пишут), что модель улучшилась в тех местах, на которые сложно указать пальцем (в значении «точно идентифицировать»), и что они ждут, что скажут пользователи. Всё же 4.5 пока имеет статус preview, и быть может через месяца полтора-два выйдет полноценный релиз, где соберут успешные кейсы как бизнесов и институтов, так и обычных пользователей, и там что-то покажут. А может и нет ¯\_(ツ)_/¯

А ещё, конечно, ждём Эло-рейтинг на LMSYS Arena, модель уже появилась в чатах, в первой половине следующей недели узнаем результат. (Моя ставка что топ-1 по всем категориям, но в некоторых будет делить место с reasoning-моделями: математика, программирование)

P.S.: ну и да, с ТАКООООЙ ценой конечно модели может быть очень сложно пролезть в реальные юзкейсы; но оптимизация точно наступит.
Всю последнюю неделю DeepSeek проводили «дни открытых дверей» — каждый день публиковали репозиторий с кодом, который так или иначе используется ими для создания и применения передовых LLM. Каждый мини-релиз достаточно технический, про разные инженерные оптимизации, но вот сегодняшний более верхнеуровневый, и он рассказывает про tokenomics — экономику токенов (сколько тратят, сколько зарабатывают, итд). Но сначала пара тех. деталей:

— в процессе генерации ответа на ваш запрос есть 2 части: предподсчёт векторов для вашего конкретного промпта (можно распараллелить и прогнать все слова за раз) и генерация ответа (по одному за раз)
— эти части физически запускаются на разных серверах: первая на 4 нодах (мини-коробка с 8 GPU), вторая на 18
— и там, и там суммарно на всех GPU лежит на 32 больше эксперта (части каждого слоя модели), чем их есть: они избыточны, но помогают в ситуациях, когда какие-то GPU перегружены (на одного эксперта прилетело больше вычислений, чем на другие -> он будет медленнее -> тормозит весь процесс). Сходу не смог найти, но мне кажется я где-то читал, что они на лету считают статистики использования экспертов и держат самые «горячие», то есть эти 32 постоянно меняются (удаляются, вместо них загружаются другие)

Теперь про экономику:
— суммарно у DeepSeek позавчера (да, они прям за конкретный день сделали полный расчёт) работало ~275 нод, то есть ~2200 GPU для инференса. Все они работают в пиковые часы (~16 часов в сутки), но когда запросов мало, то их число снижается до ~60 нод. Теперь понятно, почему компания на этой неделе начала проводить акции со скидками по 50-75% в определённое время
— за сутки при цене в два доллара за одну карту (это нормальная рыночная цена) получилось бы расходов на $87,072. За это же время сервера получили на вход 608 миллиардов токенов и сгенерировали 168 миллиардов
— средняя скорость генерации 20-22 токена в секунду, что сильно меньше чем у конкурентов, но не пугайтесь: это не потому что они сделали неэффективно, а потому что во всей системе за раз обрабатываются ОГРОМНЫЕ батчи (наборы запросов) — только так удаётся достичь а) высокой эффективности использования GPU б) низких цен
— то есть скорость обработки суммарная очень высокая, но скорость генерации ответа на каждый запрос низкая, потому что запросов набивается до краёв. Это определённо ухудшает некоторые юзкейсы, но а) ахахха 20 токенов в секунду это всё ещё быстрее чем у GPT-4.5 (~13) б) преступно низкая цена покрывает это с запасом
— если брать цену использования R1 (она сильно выше, чем DeepSeek V3, обычная чат-модель без рассуждений), то за сутки компания бы получила выручку в $562,027. Несложный подсчёт покажет, что в год выйдет примерно $205M с наценкой $562k/$87k = 545%

— ...и это та цифра, которую разносят в СМИ и Твиттере. Цифра, конечно же, неправильная, и сами DeepSeek об этом пишут, но кто читает? Она завышена, потому что: 1) цена на чат-модель v3 существенно ниже 2) модель в браузере и в приложении на телефоне БЕС ПЛАТ НА 3) не учитываются новые ночные скидки
— реальная цифра сильно ниже, но её сложно оценить без понимания соотношения чат/не чат и платное/бесплатное использование. Думаю, DeepSeek а) довольны б) зарабатывают, а не терпят убытки
— 🙂по информации Semianalysis, Gross Margin у OpenAI на инференс 65-75% (но я по контексту не понял, это с учётом субсидий бесплатным пользователям или нет). На GPT-4.5 и o1, наверное, сильно выше.
— конкуруренция будет продолжать играть нам на руку
Please open Telegram to view this post
VIEW IN TELEGRAM
Что-то уже воскресенье, а бенчмарков GPT-4.5 не то чтобы много появилось (за вчера ни одного нового не увидел), поэтому напишу пост по тому что есть ¯\_(ツ)_/¯

На первой картинке вы видите результаты LiveBench, первая колонка с цифрой — среднее по всем остальным, по оценкам на отдельных категориях. LiveBench стараются обновлять свежими задачами, чтобы уменьшить риск запоминания моделями ответов — правда обновления нечастые, последнее было 25-го ноября. Потенциально выводы ниже нужно будет пересмотреть после выхода обновления, ноне ясно, когда оно будет. Я не ожидаю, что результаты существенно изменятся.

Зелёным я закрасил все reasoning-модели, а стрелочками обозначил два прироста
1) от GPT-4o до GPT-4.5
2) от Sonnet 3.6 до 3.7

Видно, что хоть 4.5 и уступает множеству моделей, но все они — рассуждающие, а среди нерассуждающих она занимает первое место, в том числе обходя Grok 3 и Gemini 2.0 по трём колонкам из шести. А ведь эти модели тоже являются представителями «нового поколения», обученного на существенно большем количестве данных и ресурсов. Кстати, интересно, что модель xAI на замерах, проводимых не самой компанией, так падает 🙂спишем на случайность. Кто бы проверил, да вот они API не дают, то есть тесты если и проводить, то только по одному, руками и в браузере.

Но мы отвлеклись. Новый Sonnet прыгнул очень сильно, на +6.5%, улучшив все категории, кроме, внезапно, программирования (что скорее показывает силу предыдущей модели, насколько конкретно в этом её прокачали). Причём это — без включения режима рассуждений, с которым модель вообще вырывается на первое место. Но это скорее говорит о том, что добавление навыков к длинным цепочкам рассуждений даже без включения этого самого режима улучшает качество/навыки модели. Это частично подкрепляется тем, что разница между Sonnet 3.5 и 3.6 на предыдущем замере LiveBench ничтожная (программирование там +7%, но при этом среднее по всем задачам выросло всего на +0.53%).

GPT-4.5 почти наверняка не обучали рассуждениям через продвинутые методы, но в то же время скорее всего в датасет для дообучения положили какие-то из генераций, полученных моделью o1 или o3 (цепочки рассуждений, как делали дистилляцию DeepSeek'ом). Но и последнюю chatgpt-4o от января '25-го, от которой идёт стрелочка, почти наверняка тоже обучали на этих цепочках — потому что она сама в 3 категориях существенно обходит свою предшественницу.

Так что прирост между chatgpt-4o и GPT-4.5 хоть и состоит из двух компонент (дистилляция reasoning'а + улучшение базовой модели), мне кажется, что большая его часть объяснена масштабированием. И этот прирост очень солидный, позволяющий быть топ-1 не-reasoning моделью.

А прирост для Claude 3.7 показывает, что если обучить модель рассуждать и не включать режим рассуждений, то она скорее всего и ещё повыше прыгнет, станет лучше. Может быть, когда GPT-4.5 выйдет из preview, мы это увидим. А может и придётся ждать до GPT-5.

Но почему мы везде выше мы закрываем глаза на рассуждающие модели, почему их как будто нет? Потому что, как я сразу писал ещё в лонге про o1, это новая парадигма, которая сразу же приносит огромные приросты. Сравнивать их с обычными годится разве что для того, чтобы показать, что это супер и и вправду новая парадигма, но не подходит, чтобы сравнивать качество базовых чат-моделей (а GPT-4.5 таковой является).

Так, например, в статье DeepSeek R1 можно увидеть, что модель всего на полтора миллиарда параметров по нескольким математическим и coding бенчмаркам обходит... Claude 3.6. А на 32B — по всем, кроме одного. Но следует ли из этого, что Claude — плохая базовая модель? Конечно, нет.

Поэтому увидев такой прирост в чат-модели 4.5 можно представить, какое же большое усиление получит рассуждающая модель поверх неё. И какая будет цена... 🥺
Please open Telegram to view this post
VIEW IN TELEGRAM
Первая картинка здесь — к прошлому посту, а вторая будет объяснена ниже.

Директор EpochAI, работы которых я разбирал в канале раз 10, в целом говорит то же самое. Они построили график зависимости мощностей, вложенных в модель, и качества на бенчмарке GPQA (ещё на AIME, но тут не приведено).

В среднем по всем моделям получается такой тренд, что увеличение мощностей на один порядок (в 10 раз) приводит к росту метрик на +11%.

«Теперь мы видим, что GPT-4.5 на 20% лучше, чем GPT-4o по GPQA/AIME, но люди ... всё ещё не впечатлены?»

(спойлер: всё из-за рассуждающих моделей, в мире, где их пока не было бы, GPT-4.5 смотрелась бы оооочень солидно, особенно за счёт снижения галлюцинаций).

Единственное, где GPT-4.5 стабильно проигрывает — это агентские задачи. Видимо, модель на них вообще никак не тренировали это, конечно, идёт в минус OpenAI, но в GPT-5 это должно быть интегрировано, по крайней мере так писал Sama. Но если вдруг переживаете, что OpenAI не смогут — посмотрите метрики DeepResearch и o3-mini на тех же бенчмарках :)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Появился рейтинг GPT-4.5-preview на LMSYS Arena, где люди вслепую выбирают, какая модель из пары лучше отвечает на их вопрос.

Без лишних слов: смогли (на вайбе).

С учётом контроля стиля (штраф за длину ответа, количества заголовков и списков, итд) модель существенно отрывается от Grok 3 (Early)и Gemini 2.0 Pro Experimental.

В общей таблице (вторая картинка) не все категории имеют контроль стиля, поэтому отдельно сделал ещё скриншот Coding и Multi Turn (диалоги с более чем 1 ответом модели).

Смотреть остальные срезы — тут.
Forwarded from эйай ньюз
В Anthropic инвестировали ещё 3.5 миллиарда

После раунда финансирования от группы инвесторов, компания теперь оценивается в 61.5 миллиард долларов. Это примерно один уровень оценки с xAI, которые сейчас договариваются о раунде на 10 миллиардов, при оценке в 75.

Anthropic просто спамят инвестициями — это третий раунд за полгода (в ноябре Amazon инвестировал 4 миллиарда, а в январе Google миллиард. Делают так из-за скорости роста оценки — полгода назад компания стоила в 1.5-2x меньше. При таких темпах, Anthropic выгоднее брать много раундов на суммы поменьше, чем один большой.

@ai_newz
Через 3 часа намечается восьмой тестовый пуск системы Starship. Корабль снова второй версии, и надеемся, что с ним всё будет в порядке — прошлый-то взорвался, не выйдя на орбиту!

В программе:
— посадка огромного ускорителя на башню (снова... уже почти стало рутиной 👍)
— запуск двигателей корабля для демонстрации схода с орбиты (нужно для получения лицензии на орбитальные полёты с долгим пребыванием)
— открытие дверцы грузового отсека с дальнейшим выводом четырёх крупных макетов спутников Starlink. Если всё пойдет по плану, то скоро тестовые запуски превратятся в полноценные миссии, приносящие пользу
— попытка корабля войти в атмосферу без части плиток с дальнейшим приводнением

Если посадка корабля на воду пройдёт удачно и очень точно, уже в следующем тесте мы можем увидеть попытку ловли корабля второй башней. Также, по слухам, рассматривается возможность переиспользования ускорителя в девятом запуске. Только начали ловить, а тут уже переиспользуемость!

Ссылка на официальную трансляцию

UPD: запуск перенесли, пока не ясно на когда (может быть даже завтра, через 24 часа, если нет серьёзных проблем)
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Авва
Недавно помогал ребенку подготовиться к контрольной по программированию (школьному предмету; они учат C#). Главной темой были связные списки и работа с ними, что в данном случае было работой с классами типа Node<T>, с методами Get/SetValue(), Get/SetNext().

Я увидел, что с одной стороны ребенок вроде и понимает, что такое связный список, зачем может быть нужен, что с ним делать; но конкретные задачи из старых контрольных, что им выдали, решает с трудом или вообще не. В принципе понимает, что хочет сделать, но в код это переводится с трудом, без уверенности и с постоянными ошибками.

Подумав немного, я решил не разбирать пока эти старые контрольные и их решения, а подтянуть основы. Сидя рядом, просил ребенка писать код НА БУМАГЕ, решающий очень простые задачи одну за другой. Немедленно обсуждали написанное, ошибки в нем, исправляли их и шли дальше. Задачи такие (во всех случаях предполагаем переменную list типа Node<int>, указывающую на первый элемент списка, возможно равную null, если список пустой):

- проверить, пустой ли список
- проверить, есть ли в списке минимум 3 элемента
- проверить, есть ли в списке ровно 3 элемента
- проверить, верно ли, что второй элемент списока равен 4 (не забывать проверки существования элементов)
- если третий элемент списка существует, изменить его значение на 12
- если есть минимум 2 элемента, удалить второй
- распечатать все элементы списка
- проверить, есть ли в списке элемент со значением 5
- если есть хотя бы один элемент, вставить новый элемент с значением 10 на второе место в списке
- удалить все элементы, равные 5, предполагая, что первый не такой
- то же самое, но без предположения, что первый не такой
- найти все элементы в списке, равные 2, и для каждого такого, если следующий тоже 2, а предыдущий не 2, удалить этот следующий
- найти элемент со значением 13, и если после него есть следующий, поменять их местами
- найти минимальный элемент
- вставить элемент на правильное место в отсортированном списке

Мне кажется, это время, проведенное вместе за интенсивной проработкой основ, не было потрачено зря, и помогло укоренить правильные абстракции в голове.

После того, как все эти задачи решаются без сложностей, без ошибок и практически без рассуждений, можно переходить к задачам типа "поменять порядок на обратный" или "найти и удалить все дубликаты в списке с помощью двух вложенных циклов". Не надо с них *начинать*, если основы не делаются быстро, правильно и без сомнений. А это произойдет, когда ментальные образы станут ясными и четкими и будут правильно отражать происходящее на удобном уровне абстракции. Начинающий программист часто не понимает, насколько важны эти ясность и четкость. В таком случае задача наставника - понять это и показать на живых примерах, как и почему они важны.
Сиолошная
Недавно помогал ребенку подготовиться к контрольной по программированию (школьному предмету; они учат C#). Главной темой были связные списки и работа с ними, что в данном случае было работой с классами типа Node<T>, с методами Get/SetValue(), Get/SetNext().…
Моя мечта : чтоб у каждого учащегося и по каждому предмету была такая поддержка (не обязательно от родителей). Учителей на всех не хватит, а вот AI-систем — вполне.

Такая глубокая персональная проработка существенно влияет на уровень учащихся — вот тут можно чуть больше почитать про «проблему двух сигм».
Forwarded from The Edinorog 🦄
😊Все прутся от OpenAI, а от каких стартапов прется фонд OpenAI?

Собственно, все прутся от OpenAI из-за ее AI-продуктов. Тут сложно отрицать. А еще есть венчурный фонд OpenAI Startup Fund, который запустили в 2021 году. У него под управлением почти $300 млн. Правда, денег OpenAI в этом фонде нет — там от сторонних инвесторов.

И Techcrunch решил подсчитать, в кого наинвестировал этот фонд. Нашли 17 стартапов (правда, один уже помер). Получился вот такой список. В кого-то OpenAI Startup Fund инвестирует только на seed-стадии, в каких-то проектах участвует в нескольких раундах.

Я решил вам запостить этот список с краткими описаниями, чтобы вы посмотрели, от каких стартапов прется OpenAI Startup Fund.

1X Technologies. Норвежский стартап, который разрабатывает человекоподобных роботов.

Ambience Healthcare. Делают AI, который помогает врачам вести документацию по пациентам.

Anysphere. Делают AI-сервис Cursor, который помогает писать код.

Chai Discovery. Разрабатывают AI-модель для поиска лекарств.

Class Companion. Развивают AI в EdTech. Сервис помогает учителям давать персонализированную обратную связь ученикам.

Descript. Платформа для совместного редактирования видео и аудио.

Figure AI. Тоже делают человекоподобных роботов. У меня недавно был видос с их роботами.

— Ghost Autonomy. Разработчик софта для беспилотных автомобилей. Правда, они закрылись.

Harvey AI. Делают AI-сервис (copilot) для юристов.

Heeyo. Образовательный AI-чатбот для детей.

Kick. Разрабатывает AI-агентов, которые могут самостоятельно управлять бухгалтерским учетом.

Mem. AI-сервис для заметок, который помогает организовать их и быстро найти в нужный момент.

Milo. AI-помощник для родителей, который помогает отслеживать активности и дела, связанные с их детьми.

Physical Intelligence. Разрабатывают софт для роботов.

Speak. Делает приложение для изучения иностранных языков.

Thrive AI. Разрабатывают AI-помощника, который помогает следить и улучшать психическое и физическое здоровье.

Unify. Делают AI-сервис, который помогает с продажами

@TheEdinorogBlog — тот самый канал про стартапы🦄
Please open Telegram to view this post
VIEW IN TELEGRAM
Новость 1: GPT-4.5 запустили для Plus-подписчиков, однако доступ появится не моментально, а в течение 1-3 дней. Это нужно для того, чтобы предоставить пользователям какую-никакую адекватную скорость генерации — если ломанутся все за раз, то количество токенов в секунду упадёт, и впечатления испортятся.
У модели есть лимит использования (не смог найти, сколько конкретно сообщений в сутки или неделю), который ещё будет уточняться по ходу раскатки. Идите проверьте, получили ли доступ 👀 Многие подписчики написали, что уже есть!

Новость 2: Руководство OpenAI сообщило некоторым инвесторам, что планирует продавать агентов начального уровня по цене 2000 долларов в месяц «работникам умственного труда с высоким доходом»; агентов среднего уровня для разработки программного обеспечения по цене около 10 000 долларов в месяц; и агентов высшего уровня, действующих в качестве исследовательских агентов уровня докторов наук, по 20 000 долларов в месяц — сообщил источник.
За такие деньги нужно будет показывать реальный экономический эффект; интересно, какие компании окажутся в числе первых покупателей второго и третьего типа агентов.

В долгосрочной перспективе OpenAI ожидает, что 20–25 % выручки компании будет поступать от продуктов на основе агентов.

UPD: ранее Sama писал, что OpenAI планируют предоставлять GPT-5 (GPT-4.5 + рассуждения + Deep Research) всем, в том числе бесплатным пользователям, почти без ограничений. С учётом того, что пользовательская база растёт, и концу года может достигнуть миллиарда пользователей, становится интересно, как у компании с ростом мощностей. Потому что пока еле-еле хватает на чуть более простую модель для платных пользователей ☠️
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
Новый день, новый запрос на регуляцию АИ-индустрии от Anthropic, в этот отправленный напрямую в Белый дом США:

Anthropic ожидает, что сверхмощные системы искусственного интеллекта уровня «страна гениев в дата-центре» (так и написано) появятся уже к концу 2026 (!) — 2027 годов. В письме в Белый дом компания призывает срочно принять меры, чтобы США сохранили лидерство и защитили критически важные технологии от конкурентов, прежде всего от Китая

Интересные факты из обращения Anthropic:

• Уже сегодня модель Claude 3.7 Sonnet способна на уровне экспертов поддерживать сложнейшие задачи, включая написание софта, научные исследования и даже аспекты разработки биологического оружия, что подтверждено совместными тестами с институтами безопасности США и Великобритании

• Anthropic предупреждает, что новейшие китайские модели, такие как DeepSeek R1, свободно распространяются онлайн и отвечают даже на явно опасные вопросы, что подчёркивает необходимость ужесточения мер безопасности

• Компания предлагает установить особый экспортный контроль на чипы (например, новейший H200), которые могут помочь Китаю обойти действующие ограничения и догнать американские достижения в области ИИ

• Anthropic подчёркивает, что к 2027 году одна только тренировка одной ИИ-модели будет требовать до 5 гигаватт электроэнергии, что может вынудить компании переносить разработки за границу, если США не увеличат энергомощности

• Компания рекомендует Белому дому внедрять ИИ буквально во все сферы госуправления, где происходит обработка данных (тексты, изображения, аудио и видео), что может существенно повысить эффективность госаппарата

Еще Anthropic запустила собственный экономический индекс (Anthropic Economic Index), чтобы отслеживать, как искусственный интеллект меняет экономику и рынок труда США

Оригинал письма в Белый дом.

tldr, АИ-ставки растут
This media is not supported in your browser
VIEW IN TELEGRAM
Проклятье Starship V2.

Прототип S34 снова был потерян за 20 секунд до выхода на орбиту. Есть фундаментальная проблема с конструкцией этого блока кораблей. Пока не будем спекулировать о точных причинах, они могут повторяться (речь про гармонические колебания).

Главному инженеру пора начать наводить порядок дома.
R1 is not on par with o1, and the difference is qualitative, not quantitative

Почти сразу после выхода DeepSeek R1 я писал, что не думаю, что модель на уровне с рассуждающей моделью OpenAI o1. При этом я считал и считаю, что а) в некоторых доменах качество действительно может быть практически одинаковым б) в конкретных задачах модель может быть не хуже или даже лучше o1.

Ребята из Толоки пришли к такому же выводу, основываясь на агрегации результатов замеров на разных бенчмарках, в том числе своих, выпущенных совсем недавно, и с упором на новизну (например, U-MATH — набор математических задач, которые до этого не были нигде опубликованы). Дальше идёт перевод цитат из текста:

— Распространенно мнение, основанное на замерах самих же DeepSeek, что модель более или менее равна o1. R1 немного лучше разбирается в математике и программировании и имеет более свободный и творческий стиль письма, в то время как o1 немного лучше разбирается в фактах, отвечает на вопросы и следует инструкциям, а его стиль письма фокусируется на тщательной структуре, грамматике и логике.

— Тесты на задачах из длинного хвоста распределения показывают разницу. Как только мы сходим с проторенного пути [популярных бенчмарков], альтернативные тесты рисуют иную картину. Наша исследовательская группа исследовала оценки в нишевых поддоменах и необычных доменах и отметила количественные и качественные пробелы в производительности модели.

— U-MATH был разработан именно для того, чтобы представить новые необычные задачи по математике из университетов. Согласно нашей оценке U-MATH, R1 ничем не лучше o1 в — фактически, он на одном уровне с o1-mini.

— Превосходная обобщаемость и надежность выделяют OpenAI o1 в собственную лигу. Бенчмарки по задачам из длинного хвоста распределения нетрадиционны, они проверяют новизну и надежность. Итак, вот наше мнение: o1 имеет большую обобщенность и надежность, чем R1. [конкретные цифры и задачи см. по первой ссылке]

— Недавнее проведённый тест на галлюцинации Vectara показывает, что уровень галлюцинаций у R1 составляет 14,3%, тогда как у o1 и o1-mini он составляет всего 2,4% и 1,4% соответственно.

— также авторы сравнивали результаты на AIME '25 (про который я тоже писал), где видно, что на «новых свежих» задачах o1 почти не просела по качеству, а вот R1 упала.

===

Вдогонку к этому очень схожий по интенту пост от METR, занимающихся оценкой агентских навыков моделей. Они проверли два замера, вот выжимка:

— «R1 работает намного хуже, чем o1-preview или Claude 3.5 Sonnet. Она на одном уровне с GPT-4o»

— «Deepseek-R1 показал себя немного лучше, чем o1-preview, и находится примерно на уровне передовых моделей сентября 2024 года»

И это всё ещё не отходя от задач на английском языке! На других, уверен, разница ещё заметнее.

===

Ещё я пару раз просил в разных чатах скинуть бенчмарки, на которых R1 прям существенно лучше o1, и таких нашлось всего 2, ну может 3 с натяжкой (один из них на реддите от любителя, на своих задачах). А замеров, где o1 >> R1 — горка с присыпкой.

===

Означает ли, что это плохая модель? Нет, она очень способная, и с учётом её цены и бесплатного пользования на фоне GPT-4o это очень хорошая модель. Обратите внимание, что речь про «модель», а не «сервис или услугу» — DeepSeek до сих пор доступен с перебоями, то и дело не отвечает на запросы, что затрудняет его использование.

И если вы готовы платить $20 за подписку, или тем более вложиться в o1 pro — история прохладная.

По слухам, DeepSeek готовят версию R2 к маю. Посмотрим, что будет там. Но сразу говорю, кажется, очевидную вещь — если по каким-то 3-4 бенчмаркам модель будет на уровне с o3 от декабря '24, то фактически это почти наверняка означает то же самое: в среднем модель хуже.
2025/03/09 07:16:39
Back to Top
HTML Embed Code: