Telegram Group & Telegram Channel
Закончил 6-часовую игровую сессию в Deadlock (😉🥱), зашёл в Твиттер, а там оказывается во всю идёт обсуждение выхода LLAMA-3-405B (самого большого варианта, который МЕТА обещала). По слухам, она должна появиться завтра, 23-го, однако уже появилась карточка модели и даже веса на 4chan'е слили. Ссылок я давать не буду, подождём оф. релиза.

Однако посмотреть на метрики очень интересно. Они ОЧЕНЬ заманчивые, в отдельных бенчмарках даже выше GPT-4o (не mini, а самой большой настоящей!). На MMLU-Pro (усложнённая версия MMLU, с 10 вариантами ответа, вопросами, взятыми из разных источников) обходит и её, и Claude 3.5 Sonnet на полпроцентика. Но это слухи, просто ждём завтра и сверяем цифры.

Что ещё интересно:
— якобы для дообучения на последнем этапе использовалось 25 миллионов синтетических примеров. Интересно про это было бы почитать, ждём статью
— модели позиционируются как многоязычные с поддержкой французского, немецкого, хинди, итальянского, португальского, испанского и тайского языков
— почему моделИ? потому что 70B и 8B тоже обновят до версии LLAMA 3.1, и метрики очень сильно вырастут. Есть предположение, что этого удалось достичь через онлайн-дистилляцию 405B модельки — Google, например, так и делал с Gemma/Gemini Flash. Если завтра это подтвердится — с меня рассказ, как и почему это работает

Pastebin с карточкой модели
Источник картинки

Ну и самое главное:
— Если META и вправду это выложит, то....КОГДА АНОНС GPT-4.5??? 👀 Sama, пора 🙂

UPD: ещё в карточке есть интересная фраза
> Our study of Llama-3.1-405B’s social engineering uplift for cyber attackers was conducted to assess the effectiveness of AI models in aiding cyber threat actors in spear phishing campaigns.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/1626
Create:
Last Update:

Закончил 6-часовую игровую сессию в Deadlock (😉🥱), зашёл в Твиттер, а там оказывается во всю идёт обсуждение выхода LLAMA-3-405B (самого большого варианта, который МЕТА обещала). По слухам, она должна появиться завтра, 23-го, однако уже появилась карточка модели и даже веса на 4chan'е слили. Ссылок я давать не буду, подождём оф. релиза.

Однако посмотреть на метрики очень интересно. Они ОЧЕНЬ заманчивые, в отдельных бенчмарках даже выше GPT-4o (не mini, а самой большой настоящей!). На MMLU-Pro (усложнённая версия MMLU, с 10 вариантами ответа, вопросами, взятыми из разных источников) обходит и её, и Claude 3.5 Sonnet на полпроцентика. Но это слухи, просто ждём завтра и сверяем цифры.

Что ещё интересно:
— якобы для дообучения на последнем этапе использовалось 25 миллионов синтетических примеров. Интересно про это было бы почитать, ждём статью
— модели позиционируются как многоязычные с поддержкой французского, немецкого, хинди, итальянского, португальского, испанского и тайского языков
— почему моделИ? потому что 70B и 8B тоже обновят до версии LLAMA 3.1, и метрики очень сильно вырастут. Есть предположение, что этого удалось достичь через онлайн-дистилляцию 405B модельки — Google, например, так и делал с Gemma/Gemini Flash. Если завтра это подтвердится — с меня рассказ, как и почему это работает

Pastebin с карточкой модели
Источник картинки

Ну и самое главное:
— Если META и вправду это выложит, то....КОГДА АНОНС GPT-4.5??? 👀 Sama, пора 🙂

UPD: ещё в карточке есть интересная фраза
> Our study of Llama-3.1-405B’s social engineering uplift for cyber attackers was conducted to assess the effectiveness of AI models in aiding cyber threat actors in spear phishing campaigns.

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/1626

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists." The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns
from us


Telegram Сиолошная
FROM American