Telegram Group & Telegram Channel
Elon и команда показали Grok 3 и новые фичи, которые появятся скоро:

— ранний (незаконченный) чекпоинт Grok 3 занимает первое место на LMSYS Arena во всех категориях (первая и вторая картинки), в общем рейтинге без учёта контроля стиля ответов он первым перешагнул 1400 очков. В категориях «общий, с контролем стиля», «креативность/письмо», «длинные запросы» и «следование инструкциям» делит это самое первое место с другими моделями, например, с последней версией ChatGPT.
— пока официальный лидерборд не обновляют, идёт оценка финальной версии, которая, как ожидается, займёт место ещё чуть-чуть повыше.
— по оценкам на наборе бенчмарков (остальные картинки) обходит все остальные модели; но к сожалению, бенчмарков очень мало. Внушает осторожный оптимизм, но будем ждать публичного доступа, чтобы народ протестировал на всём подряд.
— Grok 3 умеет быть и обычной моделью, и рассуждающей. В трансляции это не проговорили явно, но мне показалось, что всё же это одна модель, а не две разные. По началу полные цепочки рассуждений доступны не будут, лишь их сжатая версия.
— рассуждающие модели как будто бы хуже, чем OpenAI o1 — обратите внимание на более светлые части вверху полосочек; OpenAI так обозначали агрегацию ответов от N генераций (сгенерировали 16 ответов -> выбрали самый часто попадающийся; это улучшает качество). Если и тут также, то получается, что более тёмная часть полосочек лежит на уровне или ниже o1/o3-mini-high. Альтернативно это может быть разница между low и high compute, в таком случае перформанс лучше o1 и o3-mini, в том числе на недавнем AIME '25.
— Модель имеет нативный аудио инпут/аутпут, как GPT-4o Advanced Voicemode, однако пока он не будет доступен (обещают скоро).
— Следуя моде, вместе с Grok 3 будет работать Deep Research агент, делающий запросы в интернет и вычитывающий страницы за вас; никаких метрик сравнения, хоть тех же, что показывали Perplexity неделю назад, нет.
— xAI сначала запустили кластер на 100 тысяч видеокарт за 122 дня, про это все писали; а в следующие 92 дня они удвоили количество видеокарт — это новая информация. Правда во время трансляции я не услышал прям однозначного «да, вот почти вся тренировка сразу была на всех картах», возможно их подключили совсем ближе к концу, но так или иначе говорят, что кластер есть. Точно будет использоваться дальше по дороге. Elon сказал, что для следующей итерации модели планируется расширение в 5 раз (до 1M GPU, датацентр будет потреблять 1.2GW энергии)
— Grok 2 будет выложен в открытый доступ «в течение нескольких месяцев», как полностью запустят все фичи Grok 3.

Grok 3 должен быть доступен уже сегодня для подписчиков Twitter Premium + (я вчера взял кстати 🤠) за $22. Также анонсировали какую-то подписку на сайте/в приложении, но пока не увидел цены.

TLDR: неплохие приросты, чуть меньше чем я бы ожидал от модели следующего поколения на LMSYS Arena; набор бенчмарков неплохой, но очень маленький и не conclusive, и ни одного мультимодального (картинки/видео). Ждём внешней валидации.

<страницы блога пока нет, тоже ждём>

Пообщаться с моделью БЕСПЛАТНО и без Premium + можно на арене: идём на https://lmarena.ai/ и выбираем сверху Direct chat -> Grok 3.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/2328
Create:
Last Update:

Elon и команда показали Grok 3 и новые фичи, которые появятся скоро:

— ранний (незаконченный) чекпоинт Grok 3 занимает первое место на LMSYS Arena во всех категориях (первая и вторая картинки), в общем рейтинге без учёта контроля стиля ответов он первым перешагнул 1400 очков. В категориях «общий, с контролем стиля», «креативность/письмо», «длинные запросы» и «следование инструкциям» делит это самое первое место с другими моделями, например, с последней версией ChatGPT.
— пока официальный лидерборд не обновляют, идёт оценка финальной версии, которая, как ожидается, займёт место ещё чуть-чуть повыше.
— по оценкам на наборе бенчмарков (остальные картинки) обходит все остальные модели; но к сожалению, бенчмарков очень мало. Внушает осторожный оптимизм, но будем ждать публичного доступа, чтобы народ протестировал на всём подряд.
— Grok 3 умеет быть и обычной моделью, и рассуждающей. В трансляции это не проговорили явно, но мне показалось, что всё же это одна модель, а не две разные. По началу полные цепочки рассуждений доступны не будут, лишь их сжатая версия.
— рассуждающие модели как будто бы хуже, чем OpenAI o1 — обратите внимание на более светлые части вверху полосочек; OpenAI так обозначали агрегацию ответов от N генераций (сгенерировали 16 ответов -> выбрали самый часто попадающийся; это улучшает качество). Если и тут также, то получается, что более тёмная часть полосочек лежит на уровне или ниже o1/o3-mini-high. Альтернативно это может быть разница между low и high compute, в таком случае перформанс лучше o1 и o3-mini, в том числе на недавнем AIME '25.
— Модель имеет нативный аудио инпут/аутпут, как GPT-4o Advanced Voicemode, однако пока он не будет доступен (обещают скоро).
— Следуя моде, вместе с Grok 3 будет работать Deep Research агент, делающий запросы в интернет и вычитывающий страницы за вас; никаких метрик сравнения, хоть тех же, что показывали Perplexity неделю назад, нет.
— xAI сначала запустили кластер на 100 тысяч видеокарт за 122 дня, про это все писали; а в следующие 92 дня они удвоили количество видеокарт — это новая информация. Правда во время трансляции я не услышал прям однозначного «да, вот почти вся тренировка сразу была на всех картах», возможно их подключили совсем ближе к концу, но так или иначе говорят, что кластер есть. Точно будет использоваться дальше по дороге. Elon сказал, что для следующей итерации модели планируется расширение в 5 раз (до 1M GPU, датацентр будет потреблять 1.2GW энергии)
— Grok 2 будет выложен в открытый доступ «в течение нескольких месяцев», как полностью запустят все фичи Grok 3.

Grok 3 должен быть доступен уже сегодня для подписчиков Twitter Premium + (я вчера взял кстати 🤠) за $22. Также анонсировали какую-то подписку на сайте/в приложении, но пока не увидел цены.

TLDR: неплохие приросты, чуть меньше чем я бы ожидал от модели следующего поколения на LMSYS Arena; набор бенчмарков неплохой, но очень маленький и не conclusive, и ни одного мультимодального (картинки/видео). Ждём внешней валидации.

<страницы блога пока нет, тоже ждём>

Пообщаться с моделью БЕСПЛАТНО и без Premium + можно на арене: идём на https://lmarena.ai/ и выбираем сверху Direct chat -> Grok 3.

BY Сиолошная









Share with your friend now:
group-telegram.com/seeallochnaya/2328

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." NEWS And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%.
from jp


Telegram Сиолошная
FROM American