Telegram Group & Telegram Channel
Snowflake Arctic - непрофильная компания сделала LLM, результат предсказуем

Модель гигантская - 482 миллиарда параметров (больше из открытых разве только Switch Transformer 2021 года), и очень странная архитектурно - 10B Dense модель параллельно с которой засунули MoE FFN слои, в итоге это даёт 17 миллиардов активных параметров. Длина контекста - всего 4k токенов (даже 8k у LLaMa 3 сейчас считается маленькой), но обещают поднять до 32k.

Не смотря на огромные размеры, модель тренировали всего ~400k GPU часов. Это в три раза меньше LLaMa 3 8B, от которой она слегка отстаёт на большинстве общих бенчмарков, но слегка обходит на кодинге и следовании инструкциям. Пейпера нету, но тренировку обещали описать в серии постов, которая ещё публикуется.

Из-за огромного (128) количества экспертов, модель имеет смысл использовать только в энтерпрайзе с батчсайзом в тысячах. Единственный юзкейс который я смог придумать для себя - тесты железа на может ли оно запустить LLaMa 3 405B.

Модель
Демка
Блогпост
Серия постов с деталями тренировки

@ai_newz



group-telegram.com/ai_newz/2646
Create:
Last Update:

Snowflake Arctic - непрофильная компания сделала LLM, результат предсказуем

Модель гигантская - 482 миллиарда параметров (больше из открытых разве только Switch Transformer 2021 года), и очень странная архитектурно - 10B Dense модель параллельно с которой засунули MoE FFN слои, в итоге это даёт 17 миллиардов активных параметров. Длина контекста - всего 4k токенов (даже 8k у LLaMa 3 сейчас считается маленькой), но обещают поднять до 32k.

Не смотря на огромные размеры, модель тренировали всего ~400k GPU часов. Это в три раза меньше LLaMa 3 8B, от которой она слегка отстаёт на большинстве общих бенчмарков, но слегка обходит на кодинге и следовании инструкциям. Пейпера нету, но тренировку обещали описать в серии постов, которая ещё публикуется.

Из-за огромного (128) количества экспертов, модель имеет смысл использовать только в энтерпрайзе с батчсайзом в тысячах. Единственный юзкейс который я смог придумать для себя - тесты железа на может ли оно запустить LLaMa 3 405B.

Модель
Демка
Блогпост
Серия постов с деталями тренировки

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2646

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups.
from tw


Telegram эйай ньюз
FROM American