Telegram Group & Telegram Channel
Закончил 6-часовую игровую сессию в Deadlock (😉🥱), зашёл в Твиттер, а там оказывается во всю идёт обсуждение выхода LLAMA-3-405B (самого большого варианта, который МЕТА обещала). По слухам, она должна появиться завтра, 23-го, однако уже появилась карточка модели и даже веса на 4chan'е слили. Ссылок я давать не буду, подождём оф. релиза.

Однако посмотреть на метрики очень интересно. Они ОЧЕНЬ заманчивые, в отдельных бенчмарках даже выше GPT-4o (не mini, а самой большой настоящей!). На MMLU-Pro (усложнённая версия MMLU, с 10 вариантами ответа, вопросами, взятыми из разных источников) обходит и её, и Claude 3.5 Sonnet на полпроцентика. Но это слухи, просто ждём завтра и сверяем цифры.

Что ещё интересно:
— якобы для дообучения на последнем этапе использовалось 25 миллионов синтетических примеров. Интересно про это было бы почитать, ждём статью
— модели позиционируются как многоязычные с поддержкой французского, немецкого, хинди, итальянского, португальского, испанского и тайского языков
— почему моделИ? потому что 70B и 8B тоже обновят до версии LLAMA 3.1, и метрики очень сильно вырастут. Есть предположение, что этого удалось достичь через онлайн-дистилляцию 405B модельки — Google, например, так и делал с Gemma/Gemini Flash. Если завтра это подтвердится — с меня рассказ, как и почему это работает

Pastebin с карточкой модели
Источник картинки

Ну и самое главное:
— Если META и вправду это выложит, то....КОГДА АНОНС GPT-4.5??? 👀 Sama, пора 🙂

UPD: ещё в карточке есть интересная фраза
> Our study of Llama-3.1-405B’s social engineering uplift for cyber attackers was conducted to assess the effectiveness of AI models in aiding cyber threat actors in spear phishing campaigns.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/1626
Create:
Last Update:

Закончил 6-часовую игровую сессию в Deadlock (😉🥱), зашёл в Твиттер, а там оказывается во всю идёт обсуждение выхода LLAMA-3-405B (самого большого варианта, который МЕТА обещала). По слухам, она должна появиться завтра, 23-го, однако уже появилась карточка модели и даже веса на 4chan'е слили. Ссылок я давать не буду, подождём оф. релиза.

Однако посмотреть на метрики очень интересно. Они ОЧЕНЬ заманчивые, в отдельных бенчмарках даже выше GPT-4o (не mini, а самой большой настоящей!). На MMLU-Pro (усложнённая версия MMLU, с 10 вариантами ответа, вопросами, взятыми из разных источников) обходит и её, и Claude 3.5 Sonnet на полпроцентика. Но это слухи, просто ждём завтра и сверяем цифры.

Что ещё интересно:
— якобы для дообучения на последнем этапе использовалось 25 миллионов синтетических примеров. Интересно про это было бы почитать, ждём статью
— модели позиционируются как многоязычные с поддержкой французского, немецкого, хинди, итальянского, португальского, испанского и тайского языков
— почему моделИ? потому что 70B и 8B тоже обновят до версии LLAMA 3.1, и метрики очень сильно вырастут. Есть предположение, что этого удалось достичь через онлайн-дистилляцию 405B модельки — Google, например, так и делал с Gemma/Gemini Flash. Если завтра это подтвердится — с меня рассказ, как и почему это работает

Pastebin с карточкой модели
Источник картинки

Ну и самое главное:
— Если META и вправду это выложит, то....КОГДА АНОНС GPT-4.5??? 👀 Sama, пора 🙂

UPD: ещё в карточке есть интересная фраза
> Our study of Llama-3.1-405B’s social engineering uplift for cyber attackers was conducted to assess the effectiveness of AI models in aiding cyber threat actors in spear phishing campaigns.

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/1626

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report.
from sg


Telegram Сиолошная
FROM American