Notice: file_put_contents(): Write of 5502 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 13694 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Psy Eyes | Telegram Webview: Psy_Eyes/1399 -
Telegram Group & Telegram Channel
This media is not supported in your browser
VIEW IN TELEGRAM
Mistral выпустили модель Mixtral 8x7B.

Их предыдущая опенсорсная 7B модель нашла массу применения в сообществе, и теперь они пошли дальше и представили нейронку на архитектуре MoE (Mixture of experts). Здесь используется 8 моделей с 7B параметрами, каждая из которых является экспертом в своей области, и они взаимодействуют друг с другом для решения задачи пользователя.

По неподтверждённым данным схожая архитектура стоит за GPT-4, только каждая модель у их гидры имеет сотни миллиардов параметров.

Mixtral 8x7B может работать локально, выдаёт результаты на уровне GPT-3.5, в шесть раз быстрее ламы 2, имеет контекст 32к, и дружелюбную лицензию. А силами сообщества проект раскачают и на ещё больший контекст + эффективность.

Анонс
Как работает архитектура MoE
Скачать модель для локалки
Демо
(ChatArena) - сравниваем бок о бок с другими моделями
Демо (Perplexity)
Демо (TogetherComputer)
Демо (HuggingChat)
Демо (HuggingFace)
Модель в формате MLX для компов Apple.
Герганов уже впилил в llama.cpp

Торрент:
magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%http://2Ftracker.openbittorrent.com%3A80%2Fannounce


К слову за год вышла не одна работа по MoE:
* ModuleFormer от IBM
* QMoE: запускаем LLM с более 1 трлн параметров на 8x3090.
* MoWE: архитектура с упором на малое требование к ресурсам.
* Mobile V-MoEs от Apple.
* SMoE как решение проблем MoE архитектуры.
* SMEAR градиентное обучение через слияние экспертов.
* Быть может не относится к MoE, но пусть тут будет: Ensemble-Instruct плюс Automix.



group-telegram.com/Psy_Eyes/1399
Create:
Last Update:

Mistral выпустили модель Mixtral 8x7B.

Их предыдущая опенсорсная 7B модель нашла массу применения в сообществе, и теперь они пошли дальше и представили нейронку на архитектуре MoE (Mixture of experts). Здесь используется 8 моделей с 7B параметрами, каждая из которых является экспертом в своей области, и они взаимодействуют друг с другом для решения задачи пользователя.

По неподтверждённым данным схожая архитектура стоит за GPT-4, только каждая модель у их гидры имеет сотни миллиардов параметров.

Mixtral 8x7B может работать локально, выдаёт результаты на уровне GPT-3.5, в шесть раз быстрее ламы 2, имеет контекст 32к, и дружелюбную лицензию. А силами сообщества проект раскачают и на ещё больший контекст + эффективность.

Анонс
Как работает архитектура MoE
Скачать модель для локалки
Демо
(ChatArena) - сравниваем бок о бок с другими моделями
Демо (Perplexity)
Демо (TogetherComputer)
Демо (HuggingChat)
Демо (HuggingFace)
Модель в формате MLX для компов Apple.
Герганов уже впилил в llama.cpp

Торрент:

magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%http://2Ftracker.openbittorrent.com%3A80%2Fannounce


К слову за год вышла не одна работа по MoE:
* ModuleFormer от IBM
* QMoE: запускаем LLM с более 1 трлн параметров на 8x3090.
* MoWE: архитектура с упором на малое требование к ресурсам.
* Mobile V-MoEs от Apple.
* SMoE как решение проблем MoE архитектуры.
* SMEAR градиентное обучение через слияние экспертов.
* Быть может не относится к MoE, но пусть тут будет: Ensemble-Instruct плюс Automix.

BY Psy Eyes


Share with your friend now:
group-telegram.com/Psy_Eyes/1399

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych.
from pl


Telegram Psy Eyes
FROM American