Telegram Group & Telegram Channel
This media is not supported in your browser
VIEW IN TELEGRAM
Mistral выпустили модель Mixtral 8x7B.

Их предыдущая опенсорсная 7B модель нашла массу применения в сообществе, и теперь они пошли дальше и представили нейронку на архитектуре MoE (Mixture of experts). Здесь используется 8 моделей с 7B параметрами, каждая из которых является экспертом в своей области, и они взаимодействуют друг с другом для решения задачи пользователя.

По неподтверждённым данным схожая архитектура стоит за GPT-4, только каждая модель у их гидры имеет сотни миллиардов параметров.

Mixtral 8x7B может работать локально, выдаёт результаты на уровне GPT-3.5, в шесть раз быстрее ламы 2, имеет контекст 32к, и дружелюбную лицензию. А силами сообщества проект раскачают и на ещё больший контекст + эффективность.

Анонс
Как работает архитектура MoE
Скачать модель для локалки
Демо
(ChatArena) - сравниваем бок о бок с другими моделями
Демо (Perplexity)
Демо (TogetherComputer)
Демо (HuggingChat)
Демо (HuggingFace)
Модель в формате MLX для компов Apple.
Герганов уже впилил в llama.cpp

Торрент:
magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%http://2Ftracker.openbittorrent.com%3A80%2Fannounce


К слову за год вышла не одна работа по MoE:
* ModuleFormer от IBM
* QMoE: запускаем LLM с более 1 трлн параметров на 8x3090.
* MoWE: архитектура с упором на малое требование к ресурсам.
* Mobile V-MoEs от Apple.
* SMoE как решение проблем MoE архитектуры.
* SMEAR градиентное обучение через слияние экспертов.
* Быть может не относится к MoE, но пусть тут будет: Ensemble-Instruct плюс Automix.



group-telegram.com/Psy_Eyes/1399
Create:
Last Update:

Mistral выпустили модель Mixtral 8x7B.

Их предыдущая опенсорсная 7B модель нашла массу применения в сообществе, и теперь они пошли дальше и представили нейронку на архитектуре MoE (Mixture of experts). Здесь используется 8 моделей с 7B параметрами, каждая из которых является экспертом в своей области, и они взаимодействуют друг с другом для решения задачи пользователя.

По неподтверждённым данным схожая архитектура стоит за GPT-4, только каждая модель у их гидры имеет сотни миллиардов параметров.

Mixtral 8x7B может работать локально, выдаёт результаты на уровне GPT-3.5, в шесть раз быстрее ламы 2, имеет контекст 32к, и дружелюбную лицензию. А силами сообщества проект раскачают и на ещё больший контекст + эффективность.

Анонс
Как работает архитектура MoE
Скачать модель для локалки
Демо
(ChatArena) - сравниваем бок о бок с другими моделями
Демо (Perplexity)
Демо (TogetherComputer)
Демо (HuggingChat)
Демо (HuggingFace)
Модель в формате MLX для компов Apple.
Герганов уже впилил в llama.cpp

Торрент:

magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%http://2Ftracker.openbittorrent.com%3A80%2Fannounce


К слову за год вышла не одна работа по MoE:
* ModuleFormer от IBM
* QMoE: запускаем LLM с более 1 трлн параметров на 8x3090.
* MoWE: архитектура с упором на малое требование к ресурсам.
* Mobile V-MoEs от Apple.
* SMoE как решение проблем MoE архитектуры.
* SMEAR градиентное обучение через слияние экспертов.
* Быть может не относится к MoE, но пусть тут будет: Ensemble-Instruct плюс Automix.

BY Psy Eyes


Share with your friend now:
group-telegram.com/Psy_Eyes/1399

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday.
from us


Telegram Psy Eyes
FROM American