Telegram Group & Telegram Channel
Forwarded from Karim Iskakov - канал (Karim Iskakov)
Кого сначала заменит AI?

Последнее время почти все мои разговоры с друзьями и коллегами так или иначе сводятся к темам "А что будет, когда AGI появится?", "Чего сейчас не хватает? Нужно 10x данных, 10x компьюта или 10x теории?".

Из этих обсуждений, а также разных лекций/подкастов/твитов у меня сложилась картинка того, в какую сторону AI будет развиваться, и какие области/профессии будут падать первыми. А недавно слитое письмо от OpenAI про их новое (угрожающее человечеству 👻) открытие под названием Q* (Q-star) подкрепило догадки.

1️⃣ Давайте для начала вспомним AlphaGo. Это модель от DeepMind, которая наделала шума, победив в го лучшего в мире белкового игрока. Обучение модели состояло из двух фаз: pretraining и self-play.

Pretraining. Во время этой фазы сетка училась в supervised режиме на истории реальных партий в го. По сути, она училась имитировать игру экспертных игроков. Такая модель уже хорошо играла, побеждала опенсорсные го движки. Но победить лучшего игрока в мире у нее шансов не было.

Self-play. А вот тут пошла жара. Авторы сделали 2 копии модели из pretraining-фазы и заставили их долго мучительно играть друг против друга 😅. Обучалось это с помощью reinforcement learning, для которого очень важно придумать хороший reward, который модель будет максимизировать. В данном случае ревордом служила победа в партии. И вот такая самозадрюченная версия модели уже порвала лучшего в мире игрока в го.

Тут самое главное то, что у авторов получилось создать environment [две +- равные по силе модели играют против друг друга], в котором данные для обучения генерируются сами, без разметки от людей. И эти данные содержат ценный сигнал, т.к. они значительно улучшают итоговое качество моделей (см. картинку в первом комменте)

2️⃣ А теперь проведем аналогии с обучением текущих LLM'ок.

Сейчас в обучении LLM'ок присутствует только pretraining фаза (в терминах статьи AlphaGo). Все 3 этапа обучения ChatGPT – это обучение на данных, размеченных людьми:
1. Обучение на большом корпусе текста
2. Дообучение на диалоговых данных
2. RLHF этап – обучение на преференциях одного ответа другому. Тут можно возразить и сказать, что в RLHF первые 2 буквы означают Reinforcement Learning. Но по сути это все такое же обучение на лейблах, которые разметили люди.

Все, что делает LLM – это имитирует текст или выбор, сделанный человеком. Вряд ли с таким подходом получится превзойти лучших людей в области (у AlphaGo не вышло).

Превзойти человека у нее получится только тогда, когда мы прикрутим аналог self-play фазы. Когда поместим ее в environment, в котором будет хорошо задизайненный реворд, и модель методом проб и ошибок сможет самоулучшаться за счет большого количества компьюта.

Так кого же первым заменит AGI?
Я бы ставил на те области, в которых легче создать эффективный environment с хорошим ревордом и с быстрой обратной связью. Приведу пару примеров из головы.

AI-кодер. Очень грустно это осознавать (думаю, как и большинству подписчиков этого канала 😔), но скорее всего сетки научатся хорошо программировать довольно скоро. Написание кода, его запуск и тестирование происходит полностью в цифровом мире (быстрая обратная связь). При разработке сложно писать код, но сильно легче придумывать ТЗ и проверять результат (простой дизайн реворда)

AI-психолог. Вот тут гораздо сложнее придумать эффективный environment. Реворд сложный – это психологическое состояние человека, которое сложно апроксимировать вычислениями (только если не научиться весь мозг симулировать). Обучение будет неэффективно, т.к. цикл обратной связи длинный и в нем присутствует человек.

☝️ Буду рад критике таких мыслей и обсуждениям в комментариях!
🎒 @karim_iskakov
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/optorepost/62
Create:
Last Update:

Кого сначала заменит AI?

Последнее время почти все мои разговоры с друзьями и коллегами так или иначе сводятся к темам "А что будет, когда AGI появится?", "Чего сейчас не хватает? Нужно 10x данных, 10x компьюта или 10x теории?".

Из этих обсуждений, а также разных лекций/подкастов/твитов у меня сложилась картинка того, в какую сторону AI будет развиваться, и какие области/профессии будут падать первыми. А недавно слитое письмо от OpenAI про их новое (угрожающее человечеству 👻) открытие под названием Q* (Q-star) подкрепило догадки.

1️⃣ Давайте для начала вспомним AlphaGo. Это модель от DeepMind, которая наделала шума, победив в го лучшего в мире белкового игрока. Обучение модели состояло из двух фаз: pretraining и self-play.

Pretraining. Во время этой фазы сетка училась в supervised режиме на истории реальных партий в го. По сути, она училась имитировать игру экспертных игроков. Такая модель уже хорошо играла, побеждала опенсорсные го движки. Но победить лучшего игрока в мире у нее шансов не было.

Self-play. А вот тут пошла жара. Авторы сделали 2 копии модели из pretraining-фазы и заставили их долго мучительно играть друг против друга 😅. Обучалось это с помощью reinforcement learning, для которого очень важно придумать хороший reward, который модель будет максимизировать. В данном случае ревордом служила победа в партии. И вот такая самозадрюченная версия модели уже порвала лучшего в мире игрока в го.

Тут самое главное то, что у авторов получилось создать environment [две +- равные по силе модели играют против друг друга], в котором данные для обучения генерируются сами, без разметки от людей. И эти данные содержат ценный сигнал, т.к. они значительно улучшают итоговое качество моделей (см. картинку в первом комменте)

2️⃣ А теперь проведем аналогии с обучением текущих LLM'ок.

Сейчас в обучении LLM'ок присутствует только pretraining фаза (в терминах статьи AlphaGo). Все 3 этапа обучения ChatGPT – это обучение на данных, размеченных людьми:
1. Обучение на большом корпусе текста
2. Дообучение на диалоговых данных
2. RLHF этап – обучение на преференциях одного ответа другому. Тут можно возразить и сказать, что в RLHF первые 2 буквы означают Reinforcement Learning. Но по сути это все такое же обучение на лейблах, которые разметили люди.

Все, что делает LLM – это имитирует текст или выбор, сделанный человеком. Вряд ли с таким подходом получится превзойти лучших людей в области (у AlphaGo не вышло).

Превзойти человека у нее получится только тогда, когда мы прикрутим аналог self-play фазы. Когда поместим ее в environment, в котором будет хорошо задизайненный реворд, и модель методом проб и ошибок сможет самоулучшаться за счет большого количества компьюта.

Так кого же первым заменит AGI?
Я бы ставил на те области, в которых легче создать эффективный environment с хорошим ревордом и с быстрой обратной связью. Приведу пару примеров из головы.

AI-кодер. Очень грустно это осознавать (думаю, как и большинству подписчиков этого канала 😔), но скорее всего сетки научатся хорошо программировать довольно скоро. Написание кода, его запуск и тестирование происходит полностью в цифровом мире (быстрая обратная связь). При разработке сложно писать код, но сильно легче придумывать ТЗ и проверять результат (простой дизайн реворда)

AI-психолог. Вот тут гораздо сложнее придумать эффективный environment. Реворд сложный – это психологическое состояние человека, которое сложно апроксимировать вычислениями (только если не научиться весь мозг симулировать). Обучение будет неэффективно, т.к. цикл обратной связи длинный и в нем присутствует человек.

☝️ Буду рад критике таких мыслей и обсуждениям в комментариях!
🎒 @karim_iskakov

BY optorepost


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/optorepost/62

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news.
from id


Telegram optorepost
FROM American