Telegram Group & Telegram Channel
Elon и команда показали Grok 3 и новые фичи, которые появятся скоро:

— ранний (незаконченный) чекпоинт Grok 3 занимает первое место на LMSYS Arena во всех категориях (первая и вторая картинки), в общем рейтинге без учёта контроля стиля ответов он первым перешагнул 1400 очков. В категориях «общий, с контролем стиля», «креативность/письмо», «длинные запросы» и «следование инструкциям» делит это самое первое место с другими моделями, например, с последней версией ChatGPT.
— пока официальный лидерборд не обновляют, идёт оценка финальной версии, которая, как ожидается, займёт место ещё чуть-чуть повыше.
— по оценкам на наборе бенчмарков (остальные картинки) обходит все остальные модели; но к сожалению, бенчмарков очень мало. Внушает осторожный оптимизм, но будем ждать публичного доступа, чтобы народ протестировал на всём подряд.
— Grok 3 умеет быть и обычной моделью, и рассуждающей. В трансляции это не проговорили явно, но мне показалось, что всё же это одна модель, а не две разные. По началу полные цепочки рассуждений доступны не будут, лишь их сжатая версия.
— рассуждающие модели как будто бы хуже, чем OpenAI o1 — обратите внимание на более светлые части вверху полосочек; OpenAI так обозначали агрегацию ответов от N генераций (сгенерировали 16 ответов -> выбрали самый часто попадающийся; это улучшает качество). Если и тут также, то получается, что более тёмная часть полосочек лежит на уровне или ниже o1/o3-mini-high. Альтернативно это может быть разница между low и high compute, в таком случае перформанс лучше o1 и o3-mini, в том числе на недавнем AIME '25.
— Модель имеет нативный аудио инпут/аутпут, как GPT-4o Advanced Voicemode, однако пока он не будет доступен (обещают скоро).
— Следуя моде, вместе с Grok 3 будет работать Deep Research агент, делающий запросы в интернет и вычитывающий страницы за вас; никаких метрик сравнения, хоть тех же, что показывали Perplexity неделю назад, нет.
— xAI сначала запустили кластер на 100 тысяч видеокарт за 122 дня, про это все писали; а в следующие 92 дня они удвоили количество видеокарт — это новая информация. Правда во время трансляции я не услышал прям однозначного «да, вот почти вся тренировка сразу была на всех картах», возможно их подключили совсем ближе к концу, но так или иначе говорят, что кластер есть. Точно будет использоваться дальше по дороге. Elon сказал, что для следующей итерации модели планируется расширение в 5 раз (до 1M GPU, датацентр будет потреблять 1.2GW энергии)
— Grok 2 будет выложен в открытый доступ «в течение нескольких месяцев», как полностью запустят все фичи Grok 3.

Grok 3 должен быть доступен уже сегодня для подписчиков Twitter Premium + (я вчера взял кстати 🤠) за $22. Также анонсировали какую-то подписку на сайте/в приложении, но пока не увидел цены.

TLDR: неплохие приросты, чуть меньше чем я бы ожидал от модели следующего поколения на LMSYS Arena; набор бенчмарков неплохой, но очень маленький и не conclusive, и ни одного мультимодального (картинки/видео). Ждём внешней валидации.

<страницы блога пока нет, тоже ждём>

Пообщаться с моделью БЕСПЛАТНО и без Premium + можно на арене: идём на https://lmarena.ai/ и выбираем сверху Direct chat -> Grok 3.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/2327
Create:
Last Update:

Elon и команда показали Grok 3 и новые фичи, которые появятся скоро:

— ранний (незаконченный) чекпоинт Grok 3 занимает первое место на LMSYS Arena во всех категориях (первая и вторая картинки), в общем рейтинге без учёта контроля стиля ответов он первым перешагнул 1400 очков. В категориях «общий, с контролем стиля», «креативность/письмо», «длинные запросы» и «следование инструкциям» делит это самое первое место с другими моделями, например, с последней версией ChatGPT.
— пока официальный лидерборд не обновляют, идёт оценка финальной версии, которая, как ожидается, займёт место ещё чуть-чуть повыше.
— по оценкам на наборе бенчмарков (остальные картинки) обходит все остальные модели; но к сожалению, бенчмарков очень мало. Внушает осторожный оптимизм, но будем ждать публичного доступа, чтобы народ протестировал на всём подряд.
— Grok 3 умеет быть и обычной моделью, и рассуждающей. В трансляции это не проговорили явно, но мне показалось, что всё же это одна модель, а не две разные. По началу полные цепочки рассуждений доступны не будут, лишь их сжатая версия.
— рассуждающие модели как будто бы хуже, чем OpenAI o1 — обратите внимание на более светлые части вверху полосочек; OpenAI так обозначали агрегацию ответов от N генераций (сгенерировали 16 ответов -> выбрали самый часто попадающийся; это улучшает качество). Если и тут также, то получается, что более тёмная часть полосочек лежит на уровне или ниже o1/o3-mini-high. Альтернативно это может быть разница между low и high compute, в таком случае перформанс лучше o1 и o3-mini, в том числе на недавнем AIME '25.
— Модель имеет нативный аудио инпут/аутпут, как GPT-4o Advanced Voicemode, однако пока он не будет доступен (обещают скоро).
— Следуя моде, вместе с Grok 3 будет работать Deep Research агент, делающий запросы в интернет и вычитывающий страницы за вас; никаких метрик сравнения, хоть тех же, что показывали Perplexity неделю назад, нет.
— xAI сначала запустили кластер на 100 тысяч видеокарт за 122 дня, про это все писали; а в следующие 92 дня они удвоили количество видеокарт — это новая информация. Правда во время трансляции я не услышал прям однозначного «да, вот почти вся тренировка сразу была на всех картах», возможно их подключили совсем ближе к концу, но так или иначе говорят, что кластер есть. Точно будет использоваться дальше по дороге. Elon сказал, что для следующей итерации модели планируется расширение в 5 раз (до 1M GPU, датацентр будет потреблять 1.2GW энергии)
— Grok 2 будет выложен в открытый доступ «в течение нескольких месяцев», как полностью запустят все фичи Grok 3.

Grok 3 должен быть доступен уже сегодня для подписчиков Twitter Premium + (я вчера взял кстати 🤠) за $22. Также анонсировали какую-то подписку на сайте/в приложении, но пока не увидел цены.

TLDR: неплохие приросты, чуть меньше чем я бы ожидал от модели следующего поколения на LMSYS Arena; набор бенчмарков неплохой, но очень маленький и не conclusive, и ни одного мультимодального (картинки/видео). Ждём внешней валидации.

<страницы блога пока нет, тоже ждём>

Пообщаться с моделью БЕСПЛАТНО и без Premium + можно на арене: идём на https://lmarena.ai/ и выбираем сверху Direct chat -> Grok 3.

BY Сиолошная









Share with your friend now:
group-telegram.com/seeallochnaya/2327

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS.
from us


Telegram Сиолошная
FROM American