Telegram Group & Telegram Channel
Elon и команда показали Grok 3 и новые фичи, которые появятся скоро:

— ранний (незаконченный) чекпоинт Grok 3 занимает первое место на LMSYS Arena во всех категориях (первая и вторая картинки), в общем рейтинге без учёта контроля стиля ответов он первым перешагнул 1400 очков. В категориях «общий, с контролем стиля», «креативность/письмо», «длинные запросы» и «следование инструкциям» делит это самое первое место с другими моделями, например, с последней версией ChatGPT.
— пока официальный лидерборд не обновляют, идёт оценка финальной версии, которая, как ожидается, займёт место ещё чуть-чуть повыше.
— по оценкам на наборе бенчмарков (остальные картинки) обходит все остальные модели; но к сожалению, бенчмарков очень мало. Внушает осторожный оптимизм, но будем ждать публичного доступа, чтобы народ протестировал на всём подряд.
— Grok 3 умеет быть и обычной моделью, и рассуждающей. В трансляции это не проговорили явно, но мне показалось, что всё же это одна модель, а не две разные. По началу полные цепочки рассуждений доступны не будут, лишь их сжатая версия.
— рассуждающие модели как будто бы хуже, чем OpenAI o1 — обратите внимание на более светлые части вверху полосочек; OpenAI так обозначали агрегацию ответов от N генераций (сгенерировали 16 ответов -> выбрали самый часто попадающийся; это улучшает качество). Если и тут также, то получается, что более тёмная часть полосочек лежит на уровне или ниже o1/o3-mini-high. Альтернативно это может быть разница между low и high compute, в таком случае перформанс лучше o1 и o3-mini, в том числе на недавнем AIME '25.
— Модель имеет нативный аудио инпут/аутпут, как GPT-4o Advanced Voicemode, однако пока он не будет доступен (обещают скоро).
— Следуя моде, вместе с Grok 3 будет работать Deep Research агент, делающий запросы в интернет и вычитывающий страницы за вас; никаких метрик сравнения, хоть тех же, что показывали Perplexity неделю назад, нет.
— xAI сначала запустили кластер на 100 тысяч видеокарт за 122 дня, про это все писали; а в следующие 92 дня они удвоили количество видеокарт — это новая информация. Правда во время трансляции я не услышал прям однозначного «да, вот почти вся тренировка сразу была на всех картах», возможно их подключили совсем ближе к концу, но так или иначе говорят, что кластер есть. Точно будет использоваться дальше по дороге. Elon сказал, что для следующей итерации модели планируется расширение в 5 раз (до 1M GPU, датацентр будет потреблять 1.2GW энергии)
— Grok 2 будет выложен в открытый доступ «в течение нескольких месяцев», как полностью запустят все фичи Grok 3.

Grok 3 должен быть доступен уже сегодня для подписчиков Twitter Premium + (я вчера взял кстати 🤠) за $22. Также анонсировали какую-то подписку на сайте/в приложении, но пока не увидел цены.

TLDR: неплохие приросты, чуть меньше чем я бы ожидал от модели следующего поколения на LMSYS Arena; набор бенчмарков неплохой, но очень маленький и не conclusive, и ни одного мультимодального (картинки/видео). Ждём внешней валидации.

<страницы блога пока нет, тоже ждём>

Пообщаться с моделью БЕСПЛАТНО и без Premium + можно на арене: идём на https://lmarena.ai/ и выбираем сверху Direct chat -> Grok 3.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/2327
Create:
Last Update:

Elon и команда показали Grok 3 и новые фичи, которые появятся скоро:

— ранний (незаконченный) чекпоинт Grok 3 занимает первое место на LMSYS Arena во всех категориях (первая и вторая картинки), в общем рейтинге без учёта контроля стиля ответов он первым перешагнул 1400 очков. В категориях «общий, с контролем стиля», «креативность/письмо», «длинные запросы» и «следование инструкциям» делит это самое первое место с другими моделями, например, с последней версией ChatGPT.
— пока официальный лидерборд не обновляют, идёт оценка финальной версии, которая, как ожидается, займёт место ещё чуть-чуть повыше.
— по оценкам на наборе бенчмарков (остальные картинки) обходит все остальные модели; но к сожалению, бенчмарков очень мало. Внушает осторожный оптимизм, но будем ждать публичного доступа, чтобы народ протестировал на всём подряд.
— Grok 3 умеет быть и обычной моделью, и рассуждающей. В трансляции это не проговорили явно, но мне показалось, что всё же это одна модель, а не две разные. По началу полные цепочки рассуждений доступны не будут, лишь их сжатая версия.
— рассуждающие модели как будто бы хуже, чем OpenAI o1 — обратите внимание на более светлые части вверху полосочек; OpenAI так обозначали агрегацию ответов от N генераций (сгенерировали 16 ответов -> выбрали самый часто попадающийся; это улучшает качество). Если и тут также, то получается, что более тёмная часть полосочек лежит на уровне или ниже o1/o3-mini-high. Альтернативно это может быть разница между low и high compute, в таком случае перформанс лучше o1 и o3-mini, в том числе на недавнем AIME '25.
— Модель имеет нативный аудио инпут/аутпут, как GPT-4o Advanced Voicemode, однако пока он не будет доступен (обещают скоро).
— Следуя моде, вместе с Grok 3 будет работать Deep Research агент, делающий запросы в интернет и вычитывающий страницы за вас; никаких метрик сравнения, хоть тех же, что показывали Perplexity неделю назад, нет.
— xAI сначала запустили кластер на 100 тысяч видеокарт за 122 дня, про это все писали; а в следующие 92 дня они удвоили количество видеокарт — это новая информация. Правда во время трансляции я не услышал прям однозначного «да, вот почти вся тренировка сразу была на всех картах», возможно их подключили совсем ближе к концу, но так или иначе говорят, что кластер есть. Точно будет использоваться дальше по дороге. Elon сказал, что для следующей итерации модели планируется расширение в 5 раз (до 1M GPU, датацентр будет потреблять 1.2GW энергии)
— Grok 2 будет выложен в открытый доступ «в течение нескольких месяцев», как полностью запустят все фичи Grok 3.

Grok 3 должен быть доступен уже сегодня для подписчиков Twitter Premium + (я вчера взял кстати 🤠) за $22. Также анонсировали какую-то подписку на сайте/в приложении, но пока не увидел цены.

TLDR: неплохие приросты, чуть меньше чем я бы ожидал от модели следующего поколения на LMSYS Arena; набор бенчмарков неплохой, но очень маленький и не conclusive, и ни одного мультимодального (картинки/видео). Ждём внешней валидации.

<страницы блога пока нет, тоже ждём>

Пообщаться с моделью БЕСПЛАТНО и без Premium + можно на арене: идём на https://lmarena.ai/ и выбираем сверху Direct chat -> Grok 3.

BY Сиолошная









Share with your friend now:
group-telegram.com/seeallochnaya/2327

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world.
from ar


Telegram Сиолошная
FROM American