Telegram Group & Telegram Channel
Forwarded from Karim Iskakov - канал (Karim Iskakov)
Кого сначала заменит AI?

Последнее время почти все мои разговоры с друзьями и коллегами так или иначе сводятся к темам "А что будет, когда AGI появится?", "Чего сейчас не хватает? Нужно 10x данных, 10x компьюта или 10x теории?".

Из этих обсуждений, а также разных лекций/подкастов/твитов у меня сложилась картинка того, в какую сторону AI будет развиваться, и какие области/профессии будут падать первыми. А недавно слитое письмо от OpenAI про их новое (угрожающее человечеству 👻) открытие под названием Q* (Q-star) подкрепило догадки.

1️⃣ Давайте для начала вспомним AlphaGo. Это модель от DeepMind, которая наделала шума, победив в го лучшего в мире белкового игрока. Обучение модели состояло из двух фаз: pretraining и self-play.

Pretraining. Во время этой фазы сетка училась в supervised режиме на истории реальных партий в го. По сути, она училась имитировать игру экспертных игроков. Такая модель уже хорошо играла, побеждала опенсорсные го движки. Но победить лучшего игрока в мире у нее шансов не было.

Self-play. А вот тут пошла жара. Авторы сделали 2 копии модели из pretraining-фазы и заставили их долго мучительно играть друг против друга 😅. Обучалось это с помощью reinforcement learning, для которого очень важно придумать хороший reward, который модель будет максимизировать. В данном случае ревордом служила победа в партии. И вот такая самозадрюченная версия модели уже порвала лучшего в мире игрока в го.

Тут самое главное то, что у авторов получилось создать environment [две +- равные по силе модели играют против друг друга], в котором данные для обучения генерируются сами, без разметки от людей. И эти данные содержат ценный сигнал, т.к. они значительно улучшают итоговое качество моделей (см. картинку в первом комменте)

2️⃣ А теперь проведем аналогии с обучением текущих LLM'ок.

Сейчас в обучении LLM'ок присутствует только pretraining фаза (в терминах статьи AlphaGo). Все 3 этапа обучения ChatGPT – это обучение на данных, размеченных людьми:
1. Обучение на большом корпусе текста
2. Дообучение на диалоговых данных
2. RLHF этап – обучение на преференциях одного ответа другому. Тут можно возразить и сказать, что в RLHF первые 2 буквы означают Reinforcement Learning. Но по сути это все такое же обучение на лейблах, которые разметили люди.

Все, что делает LLM – это имитирует текст или выбор, сделанный человеком. Вряд ли с таким подходом получится превзойти лучших людей в области (у AlphaGo не вышло).

Превзойти человека у нее получится только тогда, когда мы прикрутим аналог self-play фазы. Когда поместим ее в environment, в котором будет хорошо задизайненный реворд, и модель методом проб и ошибок сможет самоулучшаться за счет большого количества компьюта.

Так кого же первым заменит AGI?
Я бы ставил на те области, в которых легче создать эффективный environment с хорошим ревордом и с быстрой обратной связью. Приведу пару примеров из головы.

AI-кодер. Очень грустно это осознавать (думаю, как и большинству подписчиков этого канала 😔), но скорее всего сетки научатся хорошо программировать довольно скоро. Написание кода, его запуск и тестирование происходит полностью в цифровом мире (быстрая обратная связь). При разработке сложно писать код, но сильно легче придумывать ТЗ и проверять результат (простой дизайн реворда)

AI-психолог. Вот тут гораздо сложнее придумать эффективный environment. Реворд сложный – это психологическое состояние человека, которое сложно апроксимировать вычислениями (только если не научиться весь мозг симулировать). Обучение будет неэффективно, т.к. цикл обратной связи длинный и в нем присутствует человек.

☝️ Буду рад критике таких мыслей и обсуждениям в комментариях!
🎒 @karim_iskakov
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/optorepost/62
Create:
Last Update:

Кого сначала заменит AI?

Последнее время почти все мои разговоры с друзьями и коллегами так или иначе сводятся к темам "А что будет, когда AGI появится?", "Чего сейчас не хватает? Нужно 10x данных, 10x компьюта или 10x теории?".

Из этих обсуждений, а также разных лекций/подкастов/твитов у меня сложилась картинка того, в какую сторону AI будет развиваться, и какие области/профессии будут падать первыми. А недавно слитое письмо от OpenAI про их новое (угрожающее человечеству 👻) открытие под названием Q* (Q-star) подкрепило догадки.

1️⃣ Давайте для начала вспомним AlphaGo. Это модель от DeepMind, которая наделала шума, победив в го лучшего в мире белкового игрока. Обучение модели состояло из двух фаз: pretraining и self-play.

Pretraining. Во время этой фазы сетка училась в supervised режиме на истории реальных партий в го. По сути, она училась имитировать игру экспертных игроков. Такая модель уже хорошо играла, побеждала опенсорсные го движки. Но победить лучшего игрока в мире у нее шансов не было.

Self-play. А вот тут пошла жара. Авторы сделали 2 копии модели из pretraining-фазы и заставили их долго мучительно играть друг против друга 😅. Обучалось это с помощью reinforcement learning, для которого очень важно придумать хороший reward, который модель будет максимизировать. В данном случае ревордом служила победа в партии. И вот такая самозадрюченная версия модели уже порвала лучшего в мире игрока в го.

Тут самое главное то, что у авторов получилось создать environment [две +- равные по силе модели играют против друг друга], в котором данные для обучения генерируются сами, без разметки от людей. И эти данные содержат ценный сигнал, т.к. они значительно улучшают итоговое качество моделей (см. картинку в первом комменте)

2️⃣ А теперь проведем аналогии с обучением текущих LLM'ок.

Сейчас в обучении LLM'ок присутствует только pretraining фаза (в терминах статьи AlphaGo). Все 3 этапа обучения ChatGPT – это обучение на данных, размеченных людьми:
1. Обучение на большом корпусе текста
2. Дообучение на диалоговых данных
2. RLHF этап – обучение на преференциях одного ответа другому. Тут можно возразить и сказать, что в RLHF первые 2 буквы означают Reinforcement Learning. Но по сути это все такое же обучение на лейблах, которые разметили люди.

Все, что делает LLM – это имитирует текст или выбор, сделанный человеком. Вряд ли с таким подходом получится превзойти лучших людей в области (у AlphaGo не вышло).

Превзойти человека у нее получится только тогда, когда мы прикрутим аналог self-play фазы. Когда поместим ее в environment, в котором будет хорошо задизайненный реворд, и модель методом проб и ошибок сможет самоулучшаться за счет большого количества компьюта.

Так кого же первым заменит AGI?
Я бы ставил на те области, в которых легче создать эффективный environment с хорошим ревордом и с быстрой обратной связью. Приведу пару примеров из головы.

AI-кодер. Очень грустно это осознавать (думаю, как и большинству подписчиков этого канала 😔), но скорее всего сетки научатся хорошо программировать довольно скоро. Написание кода, его запуск и тестирование происходит полностью в цифровом мире (быстрая обратная связь). При разработке сложно писать код, но сильно легче придумывать ТЗ и проверять результат (простой дизайн реворда)

AI-психолог. Вот тут гораздо сложнее придумать эффективный environment. Реворд сложный – это психологическое состояние человека, которое сложно апроксимировать вычислениями (только если не научиться весь мозг симулировать). Обучение будет неэффективно, т.к. цикл обратной связи длинный и в нем присутствует человек.

☝️ Буду рад критике таких мыслей и обсуждениям в комментариях!
🎒 @karim_iskakov

BY optorepost


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/optorepost/62

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov.
from in


Telegram optorepost
FROM American