Telegram Group & Telegram Channel
Forwarded from Karim Iskakov - канал (Karim Iskakov)
Кого сначала заменит AI?

Последнее время почти все мои разговоры с друзьями и коллегами так или иначе сводятся к темам "А что будет, когда AGI появится?", "Чего сейчас не хватает? Нужно 10x данных, 10x компьюта или 10x теории?".

Из этих обсуждений, а также разных лекций/подкастов/твитов у меня сложилась картинка того, в какую сторону AI будет развиваться, и какие области/профессии будут падать первыми. А недавно слитое письмо от OpenAI про их новое (угрожающее человечеству 👻) открытие под названием Q* (Q-star) подкрепило догадки.

1️⃣ Давайте для начала вспомним AlphaGo. Это модель от DeepMind, которая наделала шума, победив в го лучшего в мире белкового игрока. Обучение модели состояло из двух фаз: pretraining и self-play.

Pretraining. Во время этой фазы сетка училась в supervised режиме на истории реальных партий в го. По сути, она училась имитировать игру экспертных игроков. Такая модель уже хорошо играла, побеждала опенсорсные го движки. Но победить лучшего игрока в мире у нее шансов не было.

Self-play. А вот тут пошла жара. Авторы сделали 2 копии модели из pretraining-фазы и заставили их долго мучительно играть друг против друга 😅. Обучалось это с помощью reinforcement learning, для которого очень важно придумать хороший reward, который модель будет максимизировать. В данном случае ревордом служила победа в партии. И вот такая самозадрюченная версия модели уже порвала лучшего в мире игрока в го.

Тут самое главное то, что у авторов получилось создать environment [две +- равные по силе модели играют против друг друга], в котором данные для обучения генерируются сами, без разметки от людей. И эти данные содержат ценный сигнал, т.к. они значительно улучшают итоговое качество моделей (см. картинку в первом комменте)

2️⃣ А теперь проведем аналогии с обучением текущих LLM'ок.

Сейчас в обучении LLM'ок присутствует только pretraining фаза (в терминах статьи AlphaGo). Все 3 этапа обучения ChatGPT – это обучение на данных, размеченных людьми:
1. Обучение на большом корпусе текста
2. Дообучение на диалоговых данных
2. RLHF этап – обучение на преференциях одного ответа другому. Тут можно возразить и сказать, что в RLHF первые 2 буквы означают Reinforcement Learning. Но по сути это все такое же обучение на лейблах, которые разметили люди.

Все, что делает LLM – это имитирует текст или выбор, сделанный человеком. Вряд ли с таким подходом получится превзойти лучших людей в области (у AlphaGo не вышло).

Превзойти человека у нее получится только тогда, когда мы прикрутим аналог self-play фазы. Когда поместим ее в environment, в котором будет хорошо задизайненный реворд, и модель методом проб и ошибок сможет самоулучшаться за счет большого количества компьюта.

Так кого же первым заменит AGI?
Я бы ставил на те области, в которых легче создать эффективный environment с хорошим ревордом и с быстрой обратной связью. Приведу пару примеров из головы.

AI-кодер. Очень грустно это осознавать (думаю, как и большинству подписчиков этого канала 😔), но скорее всего сетки научатся хорошо программировать довольно скоро. Написание кода, его запуск и тестирование происходит полностью в цифровом мире (быстрая обратная связь). При разработке сложно писать код, но сильно легче придумывать ТЗ и проверять результат (простой дизайн реворда)

AI-психолог. Вот тут гораздо сложнее придумать эффективный environment. Реворд сложный – это психологическое состояние человека, которое сложно апроксимировать вычислениями (только если не научиться весь мозг симулировать). Обучение будет неэффективно, т.к. цикл обратной связи длинный и в нем присутствует человек.

☝️ Буду рад критике таких мыслей и обсуждениям в комментариях!
🎒 @karim_iskakov
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/optorepost/62
Create:
Last Update:

Кого сначала заменит AI?

Последнее время почти все мои разговоры с друзьями и коллегами так или иначе сводятся к темам "А что будет, когда AGI появится?", "Чего сейчас не хватает? Нужно 10x данных, 10x компьюта или 10x теории?".

Из этих обсуждений, а также разных лекций/подкастов/твитов у меня сложилась картинка того, в какую сторону AI будет развиваться, и какие области/профессии будут падать первыми. А недавно слитое письмо от OpenAI про их новое (угрожающее человечеству 👻) открытие под названием Q* (Q-star) подкрепило догадки.

1️⃣ Давайте для начала вспомним AlphaGo. Это модель от DeepMind, которая наделала шума, победив в го лучшего в мире белкового игрока. Обучение модели состояло из двух фаз: pretraining и self-play.

Pretraining. Во время этой фазы сетка училась в supervised режиме на истории реальных партий в го. По сути, она училась имитировать игру экспертных игроков. Такая модель уже хорошо играла, побеждала опенсорсные го движки. Но победить лучшего игрока в мире у нее шансов не было.

Self-play. А вот тут пошла жара. Авторы сделали 2 копии модели из pretraining-фазы и заставили их долго мучительно играть друг против друга 😅. Обучалось это с помощью reinforcement learning, для которого очень важно придумать хороший reward, который модель будет максимизировать. В данном случае ревордом служила победа в партии. И вот такая самозадрюченная версия модели уже порвала лучшего в мире игрока в го.

Тут самое главное то, что у авторов получилось создать environment [две +- равные по силе модели играют против друг друга], в котором данные для обучения генерируются сами, без разметки от людей. И эти данные содержат ценный сигнал, т.к. они значительно улучшают итоговое качество моделей (см. картинку в первом комменте)

2️⃣ А теперь проведем аналогии с обучением текущих LLM'ок.

Сейчас в обучении LLM'ок присутствует только pretraining фаза (в терминах статьи AlphaGo). Все 3 этапа обучения ChatGPT – это обучение на данных, размеченных людьми:
1. Обучение на большом корпусе текста
2. Дообучение на диалоговых данных
2. RLHF этап – обучение на преференциях одного ответа другому. Тут можно возразить и сказать, что в RLHF первые 2 буквы означают Reinforcement Learning. Но по сути это все такое же обучение на лейблах, которые разметили люди.

Все, что делает LLM – это имитирует текст или выбор, сделанный человеком. Вряд ли с таким подходом получится превзойти лучших людей в области (у AlphaGo не вышло).

Превзойти человека у нее получится только тогда, когда мы прикрутим аналог self-play фазы. Когда поместим ее в environment, в котором будет хорошо задизайненный реворд, и модель методом проб и ошибок сможет самоулучшаться за счет большого количества компьюта.

Так кого же первым заменит AGI?
Я бы ставил на те области, в которых легче создать эффективный environment с хорошим ревордом и с быстрой обратной связью. Приведу пару примеров из головы.

AI-кодер. Очень грустно это осознавать (думаю, как и большинству подписчиков этого канала 😔), но скорее всего сетки научатся хорошо программировать довольно скоро. Написание кода, его запуск и тестирование происходит полностью в цифровом мире (быстрая обратная связь). При разработке сложно писать код, но сильно легче придумывать ТЗ и проверять результат (простой дизайн реворда)

AI-психолог. Вот тут гораздо сложнее придумать эффективный environment. Реворд сложный – это психологическое состояние человека, которое сложно апроксимировать вычислениями (только если не научиться весь мозг симулировать). Обучение будет неэффективно, т.к. цикл обратной связи длинный и в нем присутствует человек.

☝️ Буду рад критике таких мыслей и обсуждениям в комментариях!
🎒 @karim_iskakov

BY optorepost


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/optorepost/62

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Some privacy experts say Telegram is not secure enough One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. 'Wild West' "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe.
from ye


Telegram optorepost
FROM American