Telegram Group & Telegram Channel
Дайджест по новым LLM

На неделе появился целый батч новых любопытных моделей, про них и поговорим.

▶️x.ai Илона Маска анонсировали Grok 1.5. По опубликованным авторами бенчмаркам заметно лучше v1.0, особенно в ризонинге (способности к логическому мышлению). Увеличили длину контекста до 128к. Обещают дать доступ к модели на следующей неделе. Grok 2, по словам Маска, "обгонит современный AI по всем метрикам" 😨.

▶️Samba-CoE - семейство франкенштейн-моделек. Авторы берут кучу моделек с HF, даже с разными архитектурами, и делают что-то в духе c-BTM: тренируют ещё одну модель которая выбирает лучшего "эксперта" в зависимости от задачи. Весов нету, есть демка. То есть это монстр из нескольких моделей, где во время инференся динамически выбирается какой токен и через какую модель пропустить. Samba – это хороший пример того, что бенчмарки не совсем отражают полезность модели и воспринимать репорты лучше со щепоткой соли. Особенно здесь, где смешали в кучу сомнительных моделей с хаггингфейса, которые не факт что не тренировали на бенчмарках. Ждем реальных тестов на Chatbot Arena.

▶️Qwen1.5-MoE-A2.7B - 14.3B MoE моделька от Alibaba, по перформансу на уровне Qwen1.5 7B (был пост про Qwen1.0) при этом в три раза быстрее. Архитектурно - 64 эксперта, 4 из них выбраны по дефолту, ещё 4 выбираются из оставшихся 60. Активно 2.7 миллиарда параметров (отсюда и название): 0.7B эмбеддинги + 2B в теле модели. Хороша если у вас много памяти, чтобы вместить 14.3B параметров, но слабое железо. Напрмиер, если запускаете на CPU, маках и старых enterprise видеокартах. Блогпост с деталями.

▶️ Кроме этого вышли DBRX [тык], Stable Code Instruct 3B [тык] и Jamba [тык], про них были отдельные посты.

#дайджест
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/2525
Create:
Last Update:

Дайджест по новым LLM

На неделе появился целый батч новых любопытных моделей, про них и поговорим.

▶️x.ai Илона Маска анонсировали Grok 1.5. По опубликованным авторами бенчмаркам заметно лучше v1.0, особенно в ризонинге (способности к логическому мышлению). Увеличили длину контекста до 128к. Обещают дать доступ к модели на следующей неделе. Grok 2, по словам Маска, "обгонит современный AI по всем метрикам" 😨.

▶️Samba-CoE - семейство франкенштейн-моделек. Авторы берут кучу моделек с HF, даже с разными архитектурами, и делают что-то в духе c-BTM: тренируют ещё одну модель которая выбирает лучшего "эксперта" в зависимости от задачи. Весов нету, есть демка. То есть это монстр из нескольких моделей, где во время инференся динамически выбирается какой токен и через какую модель пропустить. Samba – это хороший пример того, что бенчмарки не совсем отражают полезность модели и воспринимать репорты лучше со щепоткой соли. Особенно здесь, где смешали в кучу сомнительных моделей с хаггингфейса, которые не факт что не тренировали на бенчмарках. Ждем реальных тестов на Chatbot Arena.

▶️Qwen1.5-MoE-A2.7B - 14.3B MoE моделька от Alibaba, по перформансу на уровне Qwen1.5 7B (был пост про Qwen1.0) при этом в три раза быстрее. Архитектурно - 64 эксперта, 4 из них выбраны по дефолту, ещё 4 выбираются из оставшихся 60. Активно 2.7 миллиарда параметров (отсюда и название): 0.7B эмбеддинги + 2B в теле модели. Хороша если у вас много памяти, чтобы вместить 14.3B параметров, но слабое железо. Напрмиер, если запускаете на CPU, маках и старых enterprise видеокартах. Блогпост с деталями.

▶️ Кроме этого вышли DBRX [тык], Stable Code Instruct 3B [тык] и Jamba [тык], про них были отдельные посты.

#дайджест
@ai_newz

BY эйай ньюз






Share with your friend now:
group-telegram.com/ai_newz/2525

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%.
from kr


Telegram эйай ньюз
FROM American