Telegram Group & Telegram Channel
Think before you speak: Training Language Models With Pause Tokens

yet another simple idea, которая может иметь шансы на успех

а кто вам сказал, что ллм не надо хотя бы на йоту призадуматься и подумать о том, что она генерирует? звучит как какое-то ущемление 🥴

ну а авторы это объясняют так - порой выгодно откладывать генерацию модели, если за это время она сможет как-то по-разному обработать инпут (и если по-разному отработает аттеншн например)

реализуют они это при помощи токена паузы, который вставляют определенное гипером количество раз (?) - тогда происходит другой пересчет, нежели без этого токена (логично) и, возможно, это помогает лучше ллм генерировать то, что она генерирует (вижу в этом аналогию с медленным мышлением по Канеману)

а обучают с нуля и файнтюнят такую идею как можно более прямым образом - вставляют на рандоме этот токен в данные, игнорируют вывод, который на нем делает модель (как при инференсе) и обучают вуаля

еще большой вопрос вызывает, как именно аппендятся паузы на инференсе - судя по алгоритму выглядит так, как будто на каждом шаге в конец последовательности они вставляют определенное количество пауз. звучит шокирующе (почему не попробовать на определении какого-то скора выдавать паузу, чтобы сделать перерасчет), но если работает, то let it work

показывают улучшение на QA и ризонинг сетапах

жаль, что кода нет, а по мне выглядит очень прикольно

👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rizzearch/245
Create:
Last Update:

Think before you speak: Training Language Models With Pause Tokens

yet another simple idea, которая может иметь шансы на успех

а кто вам сказал, что ллм не надо хотя бы на йоту призадуматься и подумать о том, что она генерирует? звучит как какое-то ущемление 🥴

ну а авторы это объясняют так - порой выгодно откладывать генерацию модели, если за это время она сможет как-то по-разному обработать инпут (и если по-разному отработает аттеншн например)

реализуют они это при помощи токена паузы, который вставляют определенное гипером количество раз (?) - тогда происходит другой пересчет, нежели без этого токена (логично) и, возможно, это помогает лучше ллм генерировать то, что она генерирует (вижу в этом аналогию с медленным мышлением по Канеману)

а обучают с нуля и файнтюнят такую идею как можно более прямым образом - вставляют на рандоме этот токен в данные, игнорируют вывод, который на нем делает модель (как при инференсе) и обучают вуаля

еще большой вопрос вызывает, как именно аппендятся паузы на инференсе - судя по алгоритму выглядит так, как будто на каждом шаге в конец последовательности они вставляют определенное количество пауз. звучит шокирующе (почему не попробовать на определении какого-то скора выдавать паузу, чтобы сделать перерасчет), но если работает, то let it work

показывают улучшение на QA и ризонинг сетапах

жаль, что кода нет, а по мне выглядит очень прикольно

👀LINK

BY rizzearch







Share with your friend now:
group-telegram.com/rizzearch/245

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK.
from id


Telegram rizzearch
FROM American