Telegram Group & Telegram Channel
У Meta тем временем еще одна занятная работа про аналог токенизации

Пару недель назад компания представляла статью про Byte Latent Transformer, в котором вместо токенов использовались патчи байтов (мы разбирали статью подробно вот здесь). А сегодня по сети пролетела их следующая работа: Large Concept Models.

Для начала давайте порассуждаем: как думает и разговаривает человек? Разве мы осмысливаем слово за словом или букву за буквой? Нет, люди думают и "прогнозируют", что сказать дальше, на уровне идей, концепций. Как раз это и попробовали воплотить в жизнь в Meta.

Они предложили заменить задачу предсказания следующего токена на предсказание следующей концепции, где концепция рассматривается как абстрактная идея или действие. Для этого исходный текст разбивается на предложения, и каждое предложение кодируется в SONAR-эмбеддинги. Это Sentence-Level эмбеддинги фиксированной длины, они были предложены в этой статье (тоже Meta, 2023).

Используя замороженные декодер и энкодер SONAR, сама LCM затем обучается как обычно, просто вместо последовательностей закодированных токенов у нее последовательность закодированных концепций.

Всего в статье обучили две модельки, 1.6В и 7В. При этом контекстное окно у них довольно большое за счет того что предсказания происходит на более высоком уровне абстракции. В итоге на zero-shot на нескольких задачах (суммаризация например) LCM заметно превосходит аналогичные по размеру LLM. Довольно интересно, в общем.

Текст статьи тут, с кодом можно поиграть здесь



group-telegram.com/data_secrets/5799
Create:
Last Update:

У Meta тем временем еще одна занятная работа про аналог токенизации

Пару недель назад компания представляла статью про Byte Latent Transformer, в котором вместо токенов использовались патчи байтов (мы разбирали статью подробно вот здесь). А сегодня по сети пролетела их следующая работа: Large Concept Models.

Для начала давайте порассуждаем: как думает и разговаривает человек? Разве мы осмысливаем слово за словом или букву за буквой? Нет, люди думают и "прогнозируют", что сказать дальше, на уровне идей, концепций. Как раз это и попробовали воплотить в жизнь в Meta.

Они предложили заменить задачу предсказания следующего токена на предсказание следующей концепции, где концепция рассматривается как абстрактная идея или действие. Для этого исходный текст разбивается на предложения, и каждое предложение кодируется в SONAR-эмбеддинги. Это Sentence-Level эмбеддинги фиксированной длины, они были предложены в этой статье (тоже Meta, 2023).

Используя замороженные декодер и энкодер SONAR, сама LCM затем обучается как обычно, просто вместо последовательностей закодированных токенов у нее последовательность закодированных концепций.

Всего в статье обучили две модельки, 1.6В и 7В. При этом контекстное окно у них довольно большое за счет того что предсказания происходит на более высоком уровне абстракции. В итоге на zero-shot на нескольких задачах (суммаризация например) LCM заметно превосходит аналогичные по размеру LLM. Довольно интересно, в общем.

Текст статьи тут, с кодом можно поиграть здесь

BY Data Secrets







Share with your friend now:
group-telegram.com/data_secrets/5799

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Recently, Durav wrote on his Telegram channel that users' right to privacy, in light of the war in Ukraine, is "sacred, now more than ever." Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK.
from ca


Telegram Data Secrets
FROM American