Telegram Group & Telegram Channel
This media is not supported in your browser
VIEW IN TELEGRAM
Mistral выпустили модель Mixtral 8x7B.

Их предыдущая опенсорсная 7B модель нашла массу применения в сообществе, и теперь они пошли дальше и представили нейронку на архитектуре MoE (Mixture of experts). Здесь используется 8 моделей с 7B параметрами, каждая из которых является экспертом в своей области, и они взаимодействуют друг с другом для решения задачи пользователя.

По неподтверждённым данным схожая архитектура стоит за GPT-4, только каждая модель у их гидры имеет сотни миллиардов параметров.

Mixtral 8x7B может работать локально, выдаёт результаты на уровне GPT-3.5, в шесть раз быстрее ламы 2, имеет контекст 32к, и дружелюбную лицензию. А силами сообщества проект раскачают и на ещё больший контекст + эффективность.

Анонс
Как работает архитектура MoE
Скачать модель для локалки
Демо
(ChatArena) - сравниваем бок о бок с другими моделями
Демо (Perplexity)
Демо (TogetherComputer)
Демо (HuggingChat)
Демо (HuggingFace)
Модель в формате MLX для компов Apple.
Герганов уже впилил в llama.cpp

Торрент:
magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%http://2Ftracker.openbittorrent.com%3A80%2Fannounce


К слову за год вышла не одна работа по MoE:
* ModuleFormer от IBM
* QMoE: запускаем LLM с более 1 трлн параметров на 8x3090.
* MoWE: архитектура с упором на малое требование к ресурсам.
* Mobile V-MoEs от Apple.
* SMoE как решение проблем MoE архитектуры.
* SMEAR градиентное обучение через слияние экспертов.
* Быть может не относится к MoE, но пусть тут будет: Ensemble-Instruct плюс Automix.



group-telegram.com/Psy_Eyes/1399
Create:
Last Update:

Mistral выпустили модель Mixtral 8x7B.

Их предыдущая опенсорсная 7B модель нашла массу применения в сообществе, и теперь они пошли дальше и представили нейронку на архитектуре MoE (Mixture of experts). Здесь используется 8 моделей с 7B параметрами, каждая из которых является экспертом в своей области, и они взаимодействуют друг с другом для решения задачи пользователя.

По неподтверждённым данным схожая архитектура стоит за GPT-4, только каждая модель у их гидры имеет сотни миллиардов параметров.

Mixtral 8x7B может работать локально, выдаёт результаты на уровне GPT-3.5, в шесть раз быстрее ламы 2, имеет контекст 32к, и дружелюбную лицензию. А силами сообщества проект раскачают и на ещё больший контекст + эффективность.

Анонс
Как работает архитектура MoE
Скачать модель для локалки
Демо
(ChatArena) - сравниваем бок о бок с другими моделями
Демо (Perplexity)
Демо (TogetherComputer)
Демо (HuggingChat)
Демо (HuggingFace)
Модель в формате MLX для компов Apple.
Герганов уже впилил в llama.cpp

Торрент:

magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%http://2Ftracker.openbittorrent.com%3A80%2Fannounce


К слову за год вышла не одна работа по MoE:
* ModuleFormer от IBM
* QMoE: запускаем LLM с более 1 трлн параметров на 8x3090.
* MoWE: архитектура с упором на малое требование к ресурсам.
* Mobile V-MoEs от Apple.
* SMoE как решение проблем MoE архитектуры.
* SMEAR градиентное обучение через слияние экспертов.
* Быть может не относится к MoE, но пусть тут будет: Ensemble-Instruct плюс Automix.

BY Psy Eyes


Share with your friend now:
group-telegram.com/Psy_Eyes/1399

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. "Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform.
from jp


Telegram Psy Eyes
FROM American