Telegram Group & Telegram Channel
Forwarded from Karim Iskakov - канал (Karim Iskakov)
Кого сначала заменит AI?

Последнее время почти все мои разговоры с друзьями и коллегами так или иначе сводятся к темам "А что будет, когда AGI появится?", "Чего сейчас не хватает? Нужно 10x данных, 10x компьюта или 10x теории?".

Из этих обсуждений, а также разных лекций/подкастов/твитов у меня сложилась картинка того, в какую сторону AI будет развиваться, и какие области/профессии будут падать первыми. А недавно слитое письмо от OpenAI про их новое (угрожающее человечеству 👻) открытие под названием Q* (Q-star) подкрепило догадки.

1️⃣ Давайте для начала вспомним AlphaGo. Это модель от DeepMind, которая наделала шума, победив в го лучшего в мире белкового игрока. Обучение модели состояло из двух фаз: pretraining и self-play.

Pretraining. Во время этой фазы сетка училась в supervised режиме на истории реальных партий в го. По сути, она училась имитировать игру экспертных игроков. Такая модель уже хорошо играла, побеждала опенсорсные го движки. Но победить лучшего игрока в мире у нее шансов не было.

Self-play. А вот тут пошла жара. Авторы сделали 2 копии модели из pretraining-фазы и заставили их долго мучительно играть друг против друга 😅. Обучалось это с помощью reinforcement learning, для которого очень важно придумать хороший reward, который модель будет максимизировать. В данном случае ревордом служила победа в партии. И вот такая самозадрюченная версия модели уже порвала лучшего в мире игрока в го.

Тут самое главное то, что у авторов получилось создать environment [две +- равные по силе модели играют против друг друга], в котором данные для обучения генерируются сами, без разметки от людей. И эти данные содержат ценный сигнал, т.к. они значительно улучшают итоговое качество моделей (см. картинку в первом комменте)

2️⃣ А теперь проведем аналогии с обучением текущих LLM'ок.

Сейчас в обучении LLM'ок присутствует только pretraining фаза (в терминах статьи AlphaGo). Все 3 этапа обучения ChatGPT – это обучение на данных, размеченных людьми:
1. Обучение на большом корпусе текста
2. Дообучение на диалоговых данных
2. RLHF этап – обучение на преференциях одного ответа другому. Тут можно возразить и сказать, что в RLHF первые 2 буквы означают Reinforcement Learning. Но по сути это все такое же обучение на лейблах, которые разметили люди.

Все, что делает LLM – это имитирует текст или выбор, сделанный человеком. Вряд ли с таким подходом получится превзойти лучших людей в области (у AlphaGo не вышло).

Превзойти человека у нее получится только тогда, когда мы прикрутим аналог self-play фазы. Когда поместим ее в environment, в котором будет хорошо задизайненный реворд, и модель методом проб и ошибок сможет самоулучшаться за счет большого количества компьюта.

Так кого же первым заменит AGI?
Я бы ставил на те области, в которых легче создать эффективный environment с хорошим ревордом и с быстрой обратной связью. Приведу пару примеров из головы.

AI-кодер. Очень грустно это осознавать (думаю, как и большинству подписчиков этого канала 😔), но скорее всего сетки научатся хорошо программировать довольно скоро. Написание кода, его запуск и тестирование происходит полностью в цифровом мире (быстрая обратная связь). При разработке сложно писать код, но сильно легче придумывать ТЗ и проверять результат (простой дизайн реворда)

AI-психолог. Вот тут гораздо сложнее придумать эффективный environment. Реворд сложный – это психологическое состояние человека, которое сложно апроксимировать вычислениями (только если не научиться весь мозг симулировать). Обучение будет неэффективно, т.к. цикл обратной связи длинный и в нем присутствует человек.

☝️ Буду рад критике таких мыслей и обсуждениям в комментариях!
🎒 @karim_iskakov
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/optorepost/62
Create:
Last Update:

Кого сначала заменит AI?

Последнее время почти все мои разговоры с друзьями и коллегами так или иначе сводятся к темам "А что будет, когда AGI появится?", "Чего сейчас не хватает? Нужно 10x данных, 10x компьюта или 10x теории?".

Из этих обсуждений, а также разных лекций/подкастов/твитов у меня сложилась картинка того, в какую сторону AI будет развиваться, и какие области/профессии будут падать первыми. А недавно слитое письмо от OpenAI про их новое (угрожающее человечеству 👻) открытие под названием Q* (Q-star) подкрепило догадки.

1️⃣ Давайте для начала вспомним AlphaGo. Это модель от DeepMind, которая наделала шума, победив в го лучшего в мире белкового игрока. Обучение модели состояло из двух фаз: pretraining и self-play.

Pretraining. Во время этой фазы сетка училась в supervised режиме на истории реальных партий в го. По сути, она училась имитировать игру экспертных игроков. Такая модель уже хорошо играла, побеждала опенсорсные го движки. Но победить лучшего игрока в мире у нее шансов не было.

Self-play. А вот тут пошла жара. Авторы сделали 2 копии модели из pretraining-фазы и заставили их долго мучительно играть друг против друга 😅. Обучалось это с помощью reinforcement learning, для которого очень важно придумать хороший reward, который модель будет максимизировать. В данном случае ревордом служила победа в партии. И вот такая самозадрюченная версия модели уже порвала лучшего в мире игрока в го.

Тут самое главное то, что у авторов получилось создать environment [две +- равные по силе модели играют против друг друга], в котором данные для обучения генерируются сами, без разметки от людей. И эти данные содержат ценный сигнал, т.к. они значительно улучшают итоговое качество моделей (см. картинку в первом комменте)

2️⃣ А теперь проведем аналогии с обучением текущих LLM'ок.

Сейчас в обучении LLM'ок присутствует только pretraining фаза (в терминах статьи AlphaGo). Все 3 этапа обучения ChatGPT – это обучение на данных, размеченных людьми:
1. Обучение на большом корпусе текста
2. Дообучение на диалоговых данных
2. RLHF этап – обучение на преференциях одного ответа другому. Тут можно возразить и сказать, что в RLHF первые 2 буквы означают Reinforcement Learning. Но по сути это все такое же обучение на лейблах, которые разметили люди.

Все, что делает LLM – это имитирует текст или выбор, сделанный человеком. Вряд ли с таким подходом получится превзойти лучших людей в области (у AlphaGo не вышло).

Превзойти человека у нее получится только тогда, когда мы прикрутим аналог self-play фазы. Когда поместим ее в environment, в котором будет хорошо задизайненный реворд, и модель методом проб и ошибок сможет самоулучшаться за счет большого количества компьюта.

Так кого же первым заменит AGI?
Я бы ставил на те области, в которых легче создать эффективный environment с хорошим ревордом и с быстрой обратной связью. Приведу пару примеров из головы.

AI-кодер. Очень грустно это осознавать (думаю, как и большинству подписчиков этого канала 😔), но скорее всего сетки научатся хорошо программировать довольно скоро. Написание кода, его запуск и тестирование происходит полностью в цифровом мире (быстрая обратная связь). При разработке сложно писать код, но сильно легче придумывать ТЗ и проверять результат (простой дизайн реворда)

AI-психолог. Вот тут гораздо сложнее придумать эффективный environment. Реворд сложный – это психологическое состояние человека, которое сложно апроксимировать вычислениями (только если не научиться весь мозг симулировать). Обучение будет неэффективно, т.к. цикл обратной связи длинный и в нем присутствует человек.

☝️ Буду рад критике таких мыслей и обсуждениям в комментариях!
🎒 @karim_iskakov

BY optorepost


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/optorepost/62

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. Some privacy experts say Telegram is not secure enough It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists." The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel.
from pl


Telegram optorepost
FROM American