Telegram Group & Telegram Channel
This media is not supported in your browser
VIEW IN TELEGRAM
Mistral выпустили модель Mixtral 8x7B.

Их предыдущая опенсорсная 7B модель нашла массу применения в сообществе, и теперь они пошли дальше и представили нейронку на архитектуре MoE (Mixture of experts). Здесь используется 8 моделей с 7B параметрами, каждая из которых является экспертом в своей области, и они взаимодействуют друг с другом для решения задачи пользователя.

По неподтверждённым данным схожая архитектура стоит за GPT-4, только каждая модель у их гидры имеет сотни миллиардов параметров.

Mixtral 8x7B может работать локально, выдаёт результаты на уровне GPT-3.5, в шесть раз быстрее ламы 2, имеет контекст 32к, и дружелюбную лицензию. А силами сообщества проект раскачают и на ещё больший контекст + эффективность.

Анонс
Как работает архитектура MoE
Скачать модель для локалки
Демо
(ChatArena) - сравниваем бок о бок с другими моделями
Демо (Perplexity)
Демо (TogetherComputer)
Демо (HuggingChat)
Демо (HuggingFace)
Модель в формате MLX для компов Apple.
Герганов уже впилил в llama.cpp

Торрент:
magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%http://2Ftracker.openbittorrent.com%3A80%2Fannounce


К слову за год вышла не одна работа по MoE:
* ModuleFormer от IBM
* QMoE: запускаем LLM с более 1 трлн параметров на 8x3090.
* MoWE: архитектура с упором на малое требование к ресурсам.
* Mobile V-MoEs от Apple.
* SMoE как решение проблем MoE архитектуры.
* SMEAR градиентное обучение через слияние экспертов.
* Быть может не относится к MoE, но пусть тут будет: Ensemble-Instruct плюс Automix.



group-telegram.com/Psy_Eyes/1399
Create:
Last Update:

Mistral выпустили модель Mixtral 8x7B.

Их предыдущая опенсорсная 7B модель нашла массу применения в сообществе, и теперь они пошли дальше и представили нейронку на архитектуре MoE (Mixture of experts). Здесь используется 8 моделей с 7B параметрами, каждая из которых является экспертом в своей области, и они взаимодействуют друг с другом для решения задачи пользователя.

По неподтверждённым данным схожая архитектура стоит за GPT-4, только каждая модель у их гидры имеет сотни миллиардов параметров.

Mixtral 8x7B может работать локально, выдаёт результаты на уровне GPT-3.5, в шесть раз быстрее ламы 2, имеет контекст 32к, и дружелюбную лицензию. А силами сообщества проект раскачают и на ещё больший контекст + эффективность.

Анонс
Как работает архитектура MoE
Скачать модель для локалки
Демо
(ChatArena) - сравниваем бок о бок с другими моделями
Демо (Perplexity)
Демо (TogetherComputer)
Демо (HuggingChat)
Демо (HuggingFace)
Модель в формате MLX для компов Apple.
Герганов уже впилил в llama.cpp

Торрент:

magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%http://2Ftracker.openbittorrent.com%3A80%2Fannounce


К слову за год вышла не одна работа по MoE:
* ModuleFormer от IBM
* QMoE: запускаем LLM с более 1 трлн параметров на 8x3090.
* MoWE: архитектура с упором на малое требование к ресурсам.
* Mobile V-MoEs от Apple.
* SMoE как решение проблем MoE архитектуры.
* SMEAR градиентное обучение через слияние экспертов.
* Быть может не относится к MoE, но пусть тут будет: Ensemble-Instruct плюс Automix.

BY Psy Eyes


Share with your friend now:
group-telegram.com/Psy_Eyes/1399

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number.
from no


Telegram Psy Eyes
FROM American