эйай ньюз | Telegram Webview: ai_newz/2646 -

Notice: file_put_contents(): Write of 2159 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 10351 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
эйай ньюз | Telegram Webview: ai_newz/2646 -

Telegram Group & Telegram Channel

эйай ньюз

Snowflake Arctic - непрофильная компания сделала LLM, результат предсказуем

Модель гигантская - 482 миллиарда параметров (больше из открытых разве только Switch Transformer 2021 года), и очень странная архитектурно - 10B Dense модель параллельно с которой засунули MoE FFN слои, в итоге это даёт 17 миллиардов активных параметров. Длина контекста - всего 4k токенов (даже 8k у LLaMa 3 сейчас считается маленькой), но обещают поднять до 32k.

Не смотря на огромные размеры, модель тренировали всего ~400k GPU часов. Это в три раза меньше LLaMa 3 8B, от которой она слегка отстаёт на большинстве общих бенчмарков, но слегка обходит на кодинге и следовании инструкциям. Пейпера нету, но тренировку обещали описать в серии постов, которая ещё публикуется.

Из-за огромного (128) количества экспертов, модель имеет смысл использовать только в энтерпрайзе с батчсайзом в тысячах. Единственный юзкейс который я смог придумать для себя - тесты железа на может ли оно запустить LLaMa 3 405B.

Модель
Демка
Блогпост
Серия постов с деталями тренировки

@ai_newz

www.group-telegram.com/id/ai_newz.com/2646

21.2K viewsedited May 1, 2024 at 22:11

group-telegram.com/ai_newz/2646

Create: 2024-05-01
Last Update: 2025-01-15 13:14:56

Snowflake Arctic - непрофильная компания сделала LLM, результат предсказуем

Модель гигантская - 482 миллиарда параметров (больше из открытых разве только Switch Transformer 2021 года), и очень странная архитектурно - 10B Dense модель параллельно с которой засунули MoE FFN слои, в итоге это даёт 17 миллиардов активных параметров. Длина контекста - всего 4k токенов (даже 8k у LLaMa 3 сейчас считается маленькой), но обещают поднять до 32k.

Не смотря на огромные размеры, модель тренировали всего ~400k GPU часов. Это в три раза меньше LLaMa 3 8B, от которой она слегка отстаёт на большинстве общих бенчмарков, но слегка обходит на кодинге и следовании инструкциям. Пейпера нету, но тренировку обещали описать в серии постов, которая ещё публикуется.

Из-за огромного (128) количества экспертов, модель имеет смысл использовать только в энтерпрайзе с батчсайзом в тысячах. Единственный юзкейс который я смог придумать для себя - тесты железа на может ли оно запустить LLaMa 3 405B.

Модель
Демка
Блогпост
Серия постов с деталями тренировки

@ai_newz

BY эйай ньюз

Share with your friend now:
group-telegram.com/ai_newz/2646

Open in Telegram

Telegram | DID YOU KNOW?

Date: 2025-01-15|

"There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress. Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips.
from id

Telegram эйай ньюз
FROM American