Telegram Group & Telegram Channel
Дайджест по новым LLM

На неделе появился целый батч новых любопытных моделей, про них и поговорим.

▶️x.ai Илона Маска анонсировали Grok 1.5. По опубликованным авторами бенчмаркам заметно лучше v1.0, особенно в ризонинге (способности к логическому мышлению). Увеличили длину контекста до 128к. Обещают дать доступ к модели на следующей неделе. Grok 2, по словам Маска, "обгонит современный AI по всем метрикам" 😨.

▶️Samba-CoE - семейство франкенштейн-моделек. Авторы берут кучу моделек с HF, даже с разными архитектурами, и делают что-то в духе c-BTM: тренируют ещё одну модель которая выбирает лучшего "эксперта" в зависимости от задачи. Весов нету, есть демка. То есть это монстр из нескольких моделей, где во время инференся динамически выбирается какой токен и через какую модель пропустить. Samba – это хороший пример того, что бенчмарки не совсем отражают полезность модели и воспринимать репорты лучше со щепоткой соли. Особенно здесь, где смешали в кучу сомнительных моделей с хаггингфейса, которые не факт что не тренировали на бенчмарках. Ждем реальных тестов на Chatbot Arena.

▶️Qwen1.5-MoE-A2.7B - 14.3B MoE моделька от Alibaba, по перформансу на уровне Qwen1.5 7B (был пост про Qwen1.0) при этом в три раза быстрее. Архитектурно - 64 эксперта, 4 из них выбраны по дефолту, ещё 4 выбираются из оставшихся 60. Активно 2.7 миллиарда параметров (отсюда и название): 0.7B эмбеддинги + 2B в теле модели. Хороша если у вас много памяти, чтобы вместить 14.3B параметров, но слабое железо. Напрмиер, если запускаете на CPU, маках и старых enterprise видеокартах. Блогпост с деталями.

▶️ Кроме этого вышли DBRX [тык], Stable Code Instruct 3B [тык] и Jamba [тык], про них были отдельные посты.

#дайджест
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/2525
Create:
Last Update:

Дайджест по новым LLM

На неделе появился целый батч новых любопытных моделей, про них и поговорим.

▶️x.ai Илона Маска анонсировали Grok 1.5. По опубликованным авторами бенчмаркам заметно лучше v1.0, особенно в ризонинге (способности к логическому мышлению). Увеличили длину контекста до 128к. Обещают дать доступ к модели на следующей неделе. Grok 2, по словам Маска, "обгонит современный AI по всем метрикам" 😨.

▶️Samba-CoE - семейство франкенштейн-моделек. Авторы берут кучу моделек с HF, даже с разными архитектурами, и делают что-то в духе c-BTM: тренируют ещё одну модель которая выбирает лучшего "эксперта" в зависимости от задачи. Весов нету, есть демка. То есть это монстр из нескольких моделей, где во время инференся динамически выбирается какой токен и через какую модель пропустить. Samba – это хороший пример того, что бенчмарки не совсем отражают полезность модели и воспринимать репорты лучше со щепоткой соли. Особенно здесь, где смешали в кучу сомнительных моделей с хаггингфейса, которые не факт что не тренировали на бенчмарках. Ждем реальных тестов на Chatbot Arena.

▶️Qwen1.5-MoE-A2.7B - 14.3B MoE моделька от Alibaba, по перформансу на уровне Qwen1.5 7B (был пост про Qwen1.0) при этом в три раза быстрее. Архитектурно - 64 эксперта, 4 из них выбраны по дефолту, ещё 4 выбираются из оставшихся 60. Активно 2.7 миллиарда параметров (отсюда и название): 0.7B эмбеддинги + 2B в теле модели. Хороша если у вас много памяти, чтобы вместить 14.3B параметров, но слабое железо. Напрмиер, если запускаете на CPU, маках и старых enterprise видеокартах. Блогпост с деталями.

▶️ Кроме этого вышли DBRX [тык], Stable Code Instruct 3B [тык] и Jamba [тык], про них были отдельные посты.

#дайджест
@ai_newz

BY эйай ньюз






Share with your friend now:
group-telegram.com/ai_newz/2525

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users.
from sg


Telegram эйай ньюз
FROM American