Telegram Group & Telegram Channel
Помимо крутой задумки, меня тут очень интересует связь с некоторыми другими трендами в обучении LLM, которые тут раньше затрагивались в постах. Например, в этом выступлении Jason Wei (OAI) говорит, что для LLM нужно придумывать не новые архитектуры, а новые training objectives. В том числе из-за того, что предсказание следующего токена получается слишком "жестким" критерием моделирования – существует слишком много способов выразить одну и ту же мысль, плюс, это как раз заставляет модель сразу выбрать свою цепочку размышлений, вместо того, чтоб поддерживать несколько одновременно и думать какое-то время. В том же выступлении он говорит о том, что все развитие DL в последние годы состоит в уменьшении inductive bias, и тут снова continuous thoughts позволяют моделировать что-то более абстрактное, не привязанное к структуре языка

Еще мне очень понравилась в свое время статья Platonic Representations, которая пытается показать, что латетные представления моделей для разных концептов в итоге сходятся к человеческому восприятию, что логично, раз модели тренируются коммуницировать с людьми. В конце авторы однако мимолетно вбрасывают, что не факт, что такие репрезентации оптимальны для всех задач. И тут кажется ресерч от Meta достаточно явно показывает, что рассуждать можно эффективнее, если рассуждать не на естественном языке, – не поддерживать внутреннюю логику предложений, не тратить компьют на грамматическую корректность, а репрезентировать абстрактное нечто и не совсем человеческое



group-telegram.com/def_model_train/1049
Create:
Last Update:

Помимо крутой задумки, меня тут очень интересует связь с некоторыми другими трендами в обучении LLM, которые тут раньше затрагивались в постах. Например, в этом выступлении Jason Wei (OAI) говорит, что для LLM нужно придумывать не новые архитектуры, а новые training objectives. В том числе из-за того, что предсказание следующего токена получается слишком "жестким" критерием моделирования – существует слишком много способов выразить одну и ту же мысль, плюс, это как раз заставляет модель сразу выбрать свою цепочку размышлений, вместо того, чтоб поддерживать несколько одновременно и думать какое-то время. В том же выступлении он говорит о том, что все развитие DL в последние годы состоит в уменьшении inductive bias, и тут снова continuous thoughts позволяют моделировать что-то более абстрактное, не привязанное к структуре языка

Еще мне очень понравилась в свое время статья Platonic Representations, которая пытается показать, что латетные представления моделей для разных концептов в итоге сходятся к человеческому восприятию, что логично, раз модели тренируются коммуницировать с людьми. В конце авторы однако мимолетно вбрасывают, что не факт, что такие репрезентации оптимальны для всех задач. И тут кажется ресерч от Meta достаточно явно показывает, что рассуждать можно эффективнее, если рассуждать не на естественном языке, – не поддерживать внутреннюю логику предложений, не тратить компьют на грамматическую корректность, а репрезентировать абстрактное нечто и не совсем человеческое

BY я обучала одну модель


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/def_model_train/1049

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts.
from us


Telegram я обучала одну модель
FROM American