Snowflake Arctic - непрофильная компания сделала LLM, результат предсказуем
Модель гигантская - 482 миллиарда параметров (больше из открытых разве только Switch Transformer 2021 года), и очень странная архитектурно - 10B Dense модель параллельно с которой засунули MoE FFN слои, в итоге это даёт 17 миллиардов активных параметров. Длина контекста - всего 4k токенов (даже 8k у LLaMa 3 сейчас считается маленькой), но обещают поднять до 32k.
Не смотря на огромные размеры, модель тренировали всего ~400k GPU часов. Это в три раза меньше LLaMa 3 8B, от которой она слегка отстаёт на большинстве общих бенчмарков, но слегка обходит на кодинге и следовании инструкциям. Пейпера нету, но тренировку обещали описать в серии постов, которая ещё публикуется.
Из-за огромного (128) количества экспертов, модель имеет смысл использовать только в энтерпрайзе с батчсайзом в тысячах. Единственный юзкейс который я смог придумать для себя - тесты железа на может ли оно запустить LLaMa 3 405B.
Snowflake Arctic - непрофильная компания сделала LLM, результат предсказуем
Модель гигантская - 482 миллиарда параметров (больше из открытых разве только Switch Transformer 2021 года), и очень странная архитектурно - 10B Dense модель параллельно с которой засунули MoE FFN слои, в итоге это даёт 17 миллиардов активных параметров. Длина контекста - всего 4k токенов (даже 8k у LLaMa 3 сейчас считается маленькой), но обещают поднять до 32k.
Не смотря на огромные размеры, модель тренировали всего ~400k GPU часов. Это в три раза меньше LLaMa 3 8B, от которой она слегка отстаёт на большинстве общих бенчмарков, но слегка обходит на кодинге и следовании инструкциям. Пейпера нету, но тренировку обещали описать в серии постов, которая ещё публикуется.
Из-за огромного (128) количества экспертов, модель имеет смысл использовать только в энтерпрайзе с батчсайзом в тысячах. Единственный юзкейс который я смог придумать для себя - тесты железа на может ли оно запустить LLaMa 3 405B.
Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth."
from ru