Telegram Group & Telegram Channel
Помимо крутой задумки, меня тут очень интересует связь с некоторыми другими трендами в обучении LLM, которые тут раньше затрагивались в постах. Например, в этом выступлении Jason Wei (OAI) говорит, что для LLM нужно придумывать не новые архитектуры, а новые training objectives. В том числе из-за того, что предсказание следующего токена получается слишком "жестким" критерием моделирования – существует слишком много способов выразить одну и ту же мысль, плюс, это как раз заставляет модель сразу выбрать свою цепочку размышлений, вместо того, чтоб поддерживать несколько одновременно и думать какое-то время. В том же выступлении он говорит о том, что все развитие DL в последние годы состоит в уменьшении inductive bias, и тут снова continuous thoughts позволяют моделировать что-то более абстрактное, не привязанное к структуре языка

Еще мне очень понравилась в свое время статья Platonic Representations, которая пытается показать, что латетные представления моделей для разных концептов в итоге сходятся к человеческому восприятию, что логично, раз модели тренируются коммуницировать с людьми. В конце авторы однако мимолетно вбрасывают, что не факт, что такие репрезентации оптимальны для всех задач. И тут кажется ресерч от Meta достаточно явно показывает, что рассуждать можно эффективнее, если рассуждать не на естественном языке, – не поддерживать внутреннюю логику предложений, не тратить компьют на грамматическую корректность, а репрезентировать абстрактное нечто и не совсем человеческое



group-telegram.com/def_model_train/1049
Create:
Last Update:

Помимо крутой задумки, меня тут очень интересует связь с некоторыми другими трендами в обучении LLM, которые тут раньше затрагивались в постах. Например, в этом выступлении Jason Wei (OAI) говорит, что для LLM нужно придумывать не новые архитектуры, а новые training objectives. В том числе из-за того, что предсказание следующего токена получается слишком "жестким" критерием моделирования – существует слишком много способов выразить одну и ту же мысль, плюс, это как раз заставляет модель сразу выбрать свою цепочку размышлений, вместо того, чтоб поддерживать несколько одновременно и думать какое-то время. В том же выступлении он говорит о том, что все развитие DL в последние годы состоит в уменьшении inductive bias, и тут снова continuous thoughts позволяют моделировать что-то более абстрактное, не привязанное к структуре языка

Еще мне очень понравилась в свое время статья Platonic Representations, которая пытается показать, что латетные представления моделей для разных концептов в итоге сходятся к человеческому восприятию, что логично, раз модели тренируются коммуницировать с людьми. В конце авторы однако мимолетно вбрасывают, что не факт, что такие репрезентации оптимальны для всех задач. И тут кажется ресерч от Meta достаточно явно показывает, что рассуждать можно эффективнее, если рассуждать не на естественном языке, – не поддерживать внутреннюю логику предложений, не тратить компьют на грамматическую корректность, а репрезентировать абстрактное нечто и не совсем человеческое

BY я обучала одну модель


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/def_model_train/1049

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform.
from us


Telegram я обучала одну модель
FROM American