Telegram Group & Telegram Channel
Дайджест по новым LLM

На неделе появился целый батч новых любопытных моделей, про них и поговорим.

▶️x.ai Илона Маска анонсировали Grok 1.5. По опубликованным авторами бенчмаркам заметно лучше v1.0, особенно в ризонинге (способности к логическому мышлению). Увеличили длину контекста до 128к. Обещают дать доступ к модели на следующей неделе. Grok 2, по словам Маска, "обгонит современный AI по всем метрикам" 😨.

▶️Samba-CoE - семейство франкенштейн-моделек. Авторы берут кучу моделек с HF, даже с разными архитектурами, и делают что-то в духе c-BTM: тренируют ещё одну модель которая выбирает лучшего "эксперта" в зависимости от задачи. Весов нету, есть демка. То есть это монстр из нескольких моделей, где во время инференся динамически выбирается какой токен и через какую модель пропустить. Samba – это хороший пример того, что бенчмарки не совсем отражают полезность модели и воспринимать репорты лучше со щепоткой соли. Особенно здесь, где смешали в кучу сомнительных моделей с хаггингфейса, которые не факт что не тренировали на бенчмарках. Ждем реальных тестов на Chatbot Arena.

▶️Qwen1.5-MoE-A2.7B - 14.3B MoE моделька от Alibaba, по перформансу на уровне Qwen1.5 7B (был пост про Qwen1.0) при этом в три раза быстрее. Архитектурно - 64 эксперта, 4 из них выбраны по дефолту, ещё 4 выбираются из оставшихся 60. Активно 2.7 миллиарда параметров (отсюда и название): 0.7B эмбеддинги + 2B в теле модели. Хороша если у вас много памяти, чтобы вместить 14.3B параметров, но слабое железо. Напрмиер, если запускаете на CPU, маках и старых enterprise видеокартах. Блогпост с деталями.

▶️ Кроме этого вышли DBRX [тык], Stable Code Instruct 3B [тык] и Jamba [тык], про них были отдельные посты.

#дайджест
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/2525
Create:
Last Update:

Дайджест по новым LLM

На неделе появился целый батч новых любопытных моделей, про них и поговорим.

▶️x.ai Илона Маска анонсировали Grok 1.5. По опубликованным авторами бенчмаркам заметно лучше v1.0, особенно в ризонинге (способности к логическому мышлению). Увеличили длину контекста до 128к. Обещают дать доступ к модели на следующей неделе. Grok 2, по словам Маска, "обгонит современный AI по всем метрикам" 😨.

▶️Samba-CoE - семейство франкенштейн-моделек. Авторы берут кучу моделек с HF, даже с разными архитектурами, и делают что-то в духе c-BTM: тренируют ещё одну модель которая выбирает лучшего "эксперта" в зависимости от задачи. Весов нету, есть демка. То есть это монстр из нескольких моделей, где во время инференся динамически выбирается какой токен и через какую модель пропустить. Samba – это хороший пример того, что бенчмарки не совсем отражают полезность модели и воспринимать репорты лучше со щепоткой соли. Особенно здесь, где смешали в кучу сомнительных моделей с хаггингфейса, которые не факт что не тренировали на бенчмарках. Ждем реальных тестов на Chatbot Arena.

▶️Qwen1.5-MoE-A2.7B - 14.3B MoE моделька от Alibaba, по перформансу на уровне Qwen1.5 7B (был пост про Qwen1.0) при этом в три раза быстрее. Архитектурно - 64 эксперта, 4 из них выбраны по дефолту, ещё 4 выбираются из оставшихся 60. Активно 2.7 миллиарда параметров (отсюда и название): 0.7B эмбеддинги + 2B в теле модели. Хороша если у вас много памяти, чтобы вместить 14.3B параметров, но слабое железо. Напрмиер, если запускаете на CPU, маках и старых enterprise видеокартах. Блогпост с деталями.

▶️ Кроме этого вышли DBRX [тык], Stable Code Instruct 3B [тык] и Jamba [тык], про них были отдельные посты.

#дайджест
@ai_newz

BY эйай ньюз






Share with your friend now:
group-telegram.com/ai_newz/2525

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. I want a secure messaging app, should I use Telegram? Recently, Durav wrote on his Telegram channel that users' right to privacy, in light of the war in Ukraine, is "sacred, now more than ever."
from us


Telegram эйай ньюз
FROM American