Telegram Group & Telegram Channel
Forwarded from Karim Iskakov - канал (Karim Iskakov)
Кого сначала заменит AI?

Последнее время почти все мои разговоры с друзьями и коллегами так или иначе сводятся к темам "А что будет, когда AGI появится?", "Чего сейчас не хватает? Нужно 10x данных, 10x компьюта или 10x теории?".

Из этих обсуждений, а также разных лекций/подкастов/твитов у меня сложилась картинка того, в какую сторону AI будет развиваться, и какие области/профессии будут падать первыми. А недавно слитое письмо от OpenAI про их новое (угрожающее человечеству 👻) открытие под названием Q* (Q-star) подкрепило догадки.

1️⃣ Давайте для начала вспомним AlphaGo. Это модель от DeepMind, которая наделала шума, победив в го лучшего в мире белкового игрока. Обучение модели состояло из двух фаз: pretraining и self-play.

Pretraining. Во время этой фазы сетка училась в supervised режиме на истории реальных партий в го. По сути, она училась имитировать игру экспертных игроков. Такая модель уже хорошо играла, побеждала опенсорсные го движки. Но победить лучшего игрока в мире у нее шансов не было.

Self-play. А вот тут пошла жара. Авторы сделали 2 копии модели из pretraining-фазы и заставили их долго мучительно играть друг против друга 😅. Обучалось это с помощью reinforcement learning, для которого очень важно придумать хороший reward, который модель будет максимизировать. В данном случае ревордом служила победа в партии. И вот такая самозадрюченная версия модели уже порвала лучшего в мире игрока в го.

Тут самое главное то, что у авторов получилось создать environment [две +- равные по силе модели играют против друг друга], в котором данные для обучения генерируются сами, без разметки от людей. И эти данные содержат ценный сигнал, т.к. они значительно улучшают итоговое качество моделей (см. картинку в первом комменте)

2️⃣ А теперь проведем аналогии с обучением текущих LLM'ок.

Сейчас в обучении LLM'ок присутствует только pretraining фаза (в терминах статьи AlphaGo). Все 3 этапа обучения ChatGPT – это обучение на данных, размеченных людьми:
1. Обучение на большом корпусе текста
2. Дообучение на диалоговых данных
2. RLHF этап – обучение на преференциях одного ответа другому. Тут можно возразить и сказать, что в RLHF первые 2 буквы означают Reinforcement Learning. Но по сути это все такое же обучение на лейблах, которые разметили люди.

Все, что делает LLM – это имитирует текст или выбор, сделанный человеком. Вряд ли с таким подходом получится превзойти лучших людей в области (у AlphaGo не вышло).

Превзойти человека у нее получится только тогда, когда мы прикрутим аналог self-play фазы. Когда поместим ее в environment, в котором будет хорошо задизайненный реворд, и модель методом проб и ошибок сможет самоулучшаться за счет большого количества компьюта.

Так кого же первым заменит AGI?
Я бы ставил на те области, в которых легче создать эффективный environment с хорошим ревордом и с быстрой обратной связью. Приведу пару примеров из головы.

AI-кодер. Очень грустно это осознавать (думаю, как и большинству подписчиков этого канала 😔), но скорее всего сетки научатся хорошо программировать довольно скоро. Написание кода, его запуск и тестирование происходит полностью в цифровом мире (быстрая обратная связь). При разработке сложно писать код, но сильно легче придумывать ТЗ и проверять результат (простой дизайн реворда)

AI-психолог. Вот тут гораздо сложнее придумать эффективный environment. Реворд сложный – это психологическое состояние человека, которое сложно апроксимировать вычислениями (только если не научиться весь мозг симулировать). Обучение будет неэффективно, т.к. цикл обратной связи длинный и в нем присутствует человек.

☝️ Буду рад критике таких мыслей и обсуждениям в комментариях!
🎒 @karim_iskakov
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/optorepost/62
Create:
Last Update:

Кого сначала заменит AI?

Последнее время почти все мои разговоры с друзьями и коллегами так или иначе сводятся к темам "А что будет, когда AGI появится?", "Чего сейчас не хватает? Нужно 10x данных, 10x компьюта или 10x теории?".

Из этих обсуждений, а также разных лекций/подкастов/твитов у меня сложилась картинка того, в какую сторону AI будет развиваться, и какие области/профессии будут падать первыми. А недавно слитое письмо от OpenAI про их новое (угрожающее человечеству 👻) открытие под названием Q* (Q-star) подкрепило догадки.

1️⃣ Давайте для начала вспомним AlphaGo. Это модель от DeepMind, которая наделала шума, победив в го лучшего в мире белкового игрока. Обучение модели состояло из двух фаз: pretraining и self-play.

Pretraining. Во время этой фазы сетка училась в supervised режиме на истории реальных партий в го. По сути, она училась имитировать игру экспертных игроков. Такая модель уже хорошо играла, побеждала опенсорсные го движки. Но победить лучшего игрока в мире у нее шансов не было.

Self-play. А вот тут пошла жара. Авторы сделали 2 копии модели из pretraining-фазы и заставили их долго мучительно играть друг против друга 😅. Обучалось это с помощью reinforcement learning, для которого очень важно придумать хороший reward, который модель будет максимизировать. В данном случае ревордом служила победа в партии. И вот такая самозадрюченная версия модели уже порвала лучшего в мире игрока в го.

Тут самое главное то, что у авторов получилось создать environment [две +- равные по силе модели играют против друг друга], в котором данные для обучения генерируются сами, без разметки от людей. И эти данные содержат ценный сигнал, т.к. они значительно улучшают итоговое качество моделей (см. картинку в первом комменте)

2️⃣ А теперь проведем аналогии с обучением текущих LLM'ок.

Сейчас в обучении LLM'ок присутствует только pretraining фаза (в терминах статьи AlphaGo). Все 3 этапа обучения ChatGPT – это обучение на данных, размеченных людьми:
1. Обучение на большом корпусе текста
2. Дообучение на диалоговых данных
2. RLHF этап – обучение на преференциях одного ответа другому. Тут можно возразить и сказать, что в RLHF первые 2 буквы означают Reinforcement Learning. Но по сути это все такое же обучение на лейблах, которые разметили люди.

Все, что делает LLM – это имитирует текст или выбор, сделанный человеком. Вряд ли с таким подходом получится превзойти лучших людей в области (у AlphaGo не вышло).

Превзойти человека у нее получится только тогда, когда мы прикрутим аналог self-play фазы. Когда поместим ее в environment, в котором будет хорошо задизайненный реворд, и модель методом проб и ошибок сможет самоулучшаться за счет большого количества компьюта.

Так кого же первым заменит AGI?
Я бы ставил на те области, в которых легче создать эффективный environment с хорошим ревордом и с быстрой обратной связью. Приведу пару примеров из головы.

AI-кодер. Очень грустно это осознавать (думаю, как и большинству подписчиков этого канала 😔), но скорее всего сетки научатся хорошо программировать довольно скоро. Написание кода, его запуск и тестирование происходит полностью в цифровом мире (быстрая обратная связь). При разработке сложно писать код, но сильно легче придумывать ТЗ и проверять результат (простой дизайн реворда)

AI-психолог. Вот тут гораздо сложнее придумать эффективный environment. Реворд сложный – это психологическое состояние человека, которое сложно апроксимировать вычислениями (только если не научиться весь мозг симулировать). Обучение будет неэффективно, т.к. цикл обратной связи длинный и в нем присутствует человек.

☝️ Буду рад критике таких мыслей и обсуждениям в комментариях!
🎒 @karim_iskakov

BY optorepost


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/optorepost/62

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. False news often spreads via public groups, or chats, with potentially fatal effects. In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market.
from br


Telegram optorepost
FROM American