Telegram Group & Telegram Channel
🤖 Eso-LMs — новая архитектура языковых моделей, объединяющая лучшее из autoregressive и diffusion-подходов

Исследователи представили Eso-LMs (Esoteric Language Models) — модель, которая совмещает два разных способа генерации текста:

🔹 Autoregressive (AR) — как GPT: генерирует токен за токеном
🔹 MDM (Masked Diffusion Models) — как диффузионные модели, восстанавливающие текст пошагово

Обычно эти подходы несовместимы, но Eso-LMs объединяет их с помощью:
- нового attention-механизма, который работает и для AR, и для MDM
- гибридной функции потерь, позволяющей переключаться между стилями генерации

💡 Что делает Eso-LMs уникальной:

В 65 раз быстрее, чем обычные diffusion-модели
В 4 раза быстрее, чем гибридные модели с KV-кэшем
📈 Генерирует качественный текст с низкой perplexity
💬 Умеет работать параллельно и быстро, без потерь в смысле

📦 Что внутри репозитория:

• Два варианта модели: Eso-LM (A) и Eso-LM (B)
• Поддержка разных архитектур: DiT, AR-трансформеры и др.
• Скрипты для обучения, оценки и генерации текстов
• Настройки, логи, загрузка данных и прочая инфраструктура

🛠 Это не просто ещё одна LLM — это попытка соединить два мира генерации текста и ускорить inference без потери качества.

🔗 Подробнее



group-telegram.com/data_analysis_ml/3631
Create:
Last Update:

🤖 Eso-LMs — новая архитектура языковых моделей, объединяющая лучшее из autoregressive и diffusion-подходов

Исследователи представили Eso-LMs (Esoteric Language Models) — модель, которая совмещает два разных способа генерации текста:

🔹 Autoregressive (AR) — как GPT: генерирует токен за токеном
🔹 MDM (Masked Diffusion Models) — как диффузионные модели, восстанавливающие текст пошагово

Обычно эти подходы несовместимы, но Eso-LMs объединяет их с помощью:
- нового attention-механизма, который работает и для AR, и для MDM
- гибридной функции потерь, позволяющей переключаться между стилями генерации

💡 Что делает Eso-LMs уникальной:

В 65 раз быстрее, чем обычные diffusion-модели
В 4 раза быстрее, чем гибридные модели с KV-кэшем
📈 Генерирует качественный текст с низкой perplexity
💬 Умеет работать параллельно и быстро, без потерь в смысле

📦 Что внутри репозитория:

• Два варианта модели: Eso-LM (A) и Eso-LM (B)
• Поддержка разных архитектур: DiT, AR-трансформеры и др.
• Скрипты для обучения, оценки и генерации текстов
• Настройки, логи, загрузка данных и прочая инфраструктура

🛠 Это не просто ещё одна LLM — это попытка соединить два мира генерации текста и ускорить inference без потери качества.

🔗 Подробнее

BY Анализ данных (Data analysis)




Share with your friend now:
group-telegram.com/data_analysis_ml/3631

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. Despite Telegram's origins, its approach to users' security has privacy advocates worried. DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries.
from us


Telegram Анализ данных (Data analysis)
FROM American