Warning: file_put_contents(aCache/aDaily/post/rizzearch/-245-246-247-248-245-): Failed to open stream: No space left on device in /var/www/group-telegram/post.php on line 50
rizzearch | Telegram Webview: rizzearch/245 -
Telegram Group & Telegram Channel
Think before you speak: Training Language Models With Pause Tokens

yet another simple idea, которая может иметь шансы на успех

а кто вам сказал, что ллм не надо хотя бы на йоту призадуматься и подумать о том, что она генерирует? звучит как какое-то ущемление 🥴

ну а авторы это объясняют так - порой выгодно откладывать генерацию модели, если за это время она сможет как-то по-разному обработать инпут (и если по-разному отработает аттеншн например)

реализуют они это при помощи токена паузы, который вставляют определенное гипером количество раз (?) - тогда происходит другой пересчет, нежели без этого токена (логично) и, возможно, это помогает лучше ллм генерировать то, что она генерирует (вижу в этом аналогию с медленным мышлением по Канеману)

а обучают с нуля и файнтюнят такую идею как можно более прямым образом - вставляют на рандоме этот токен в данные, игнорируют вывод, который на нем делает модель (как при инференсе) и обучают вуаля

еще большой вопрос вызывает, как именно аппендятся паузы на инференсе - судя по алгоритму выглядит так, как будто на каждом шаге в конец последовательности они вставляют определенное количество пауз. звучит шокирующе (почему не попробовать на определении какого-то скора выдавать паузу, чтобы сделать перерасчет), но если работает, то let it work

показывают улучшение на QA и ризонинг сетапах

жаль, что кода нет, а по мне выглядит очень прикольно

👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rizzearch/245
Create:
Last Update:

Think before you speak: Training Language Models With Pause Tokens

yet another simple idea, которая может иметь шансы на успех

а кто вам сказал, что ллм не надо хотя бы на йоту призадуматься и подумать о том, что она генерирует? звучит как какое-то ущемление 🥴

ну а авторы это объясняют так - порой выгодно откладывать генерацию модели, если за это время она сможет как-то по-разному обработать инпут (и если по-разному отработает аттеншн например)

реализуют они это при помощи токена паузы, который вставляют определенное гипером количество раз (?) - тогда происходит другой пересчет, нежели без этого токена (логично) и, возможно, это помогает лучше ллм генерировать то, что она генерирует (вижу в этом аналогию с медленным мышлением по Канеману)

а обучают с нуля и файнтюнят такую идею как можно более прямым образом - вставляют на рандоме этот токен в данные, игнорируют вывод, который на нем делает модель (как при инференсе) и обучают вуаля

еще большой вопрос вызывает, как именно аппендятся паузы на инференсе - судя по алгоритму выглядит так, как будто на каждом шаге в конец последовательности они вставляют определенное количество пауз. звучит шокирующе (почему не попробовать на определении какого-то скора выдавать паузу, чтобы сделать перерасчет), но если работает, то let it work

показывают улучшение на QA и ризонинг сетапах

жаль, что кода нет, а по мне выглядит очень прикольно

👀LINK

BY rizzearch







Share with your friend now:
group-telegram.com/rizzearch/245

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. I want a secure messaging app, should I use Telegram?
from vn


Telegram rizzearch
FROM American