Telegram Group & Telegram Channel
Конспект редкого интервью Dario Amodei, CEO/со-основателя Anthropic, про пределы нейронок через рост compute и data, страхи, шпионов, биотерроризм. Его взял подкастер типа Lex Fridman - Dwarkesh Patel

Непубличность
- Dario keeps low profile, чтобы как ученый нечаянно не стать интеллектуально зависимым от имиджа, толпы, славы - видел такие кейсы

Anthropic
- Их модель Claude названа в честь Клода Шеннона / теория информации через энтропию
- Я и другие фаундеры - физики, любим их тк ML пока не оч. глубокая сфера и физики быстро вливаются
- У компании траст, управляющий ею в целях AI safety (!)
- Прокуроры пытаются отклонить
аргумент адвокатов Sam Bankman, что он в 2022 вложил $500М в Anthropic по оценке $4 млрд, а сейчас оценка $20-30 млрд - хватит покрыть ущерб клиентов FTX 🙈

Нейронки
- Мы не знаем, почему нейронки учатся. Начинал со speech recognition в Baidu вместе с Andrew Ng, и там увидел взлет точности по мере роста data. Позже ему в Open AI Karpathy рассказал “модели просто хотят учиться, дай им data, убирай им препятствия”, прямо дзен koan. Но да, когда растят compute и данные, а потом LLM (технически просто предсказыватель следующего слова) вдруг “рассуждает” или пишет простой код - это каждый раз удивляет
- Intelligence это не спектр от дурачка до Эйнштейна, а много разных domain expertise areas
- Нам далеко от исчерпания compute и сбора данных где угодно, “закон” что корми нейронки дальше - будут удивлять - продолжится. Первым это понял Shane Legg из Deepmind
- Часть прогресса будет и за счет архитектуры нейронок - мы и так из языка многое взяли
- Развитие будет как мессиво/снежный ком разных моделей, и мне сложно делать всякие линейные/экспоненциальные прогнозы

Страхи AI
- Dario по образованию [био]физик, ориентируется на эмпирические факты + все теории об опасности AI не подтверждались (он угадал в 10%, что уже круть)
- Ему близок подход mechanistic interpretability, что нейронки можно reverse engineer как и обычный софт, выделять слои и веса как изменяющиеся переменные в коде и устанавливать принципы работы. Условно, просвечивать как мозг рентгеном/МРТ. В этом шарит Chris Olah
- Не верит, что alignment сам по себе появится в связи с ростом сеток. Верит, что ничего там внутри моделей не optimizing against us =)
- Страх вещь сложная, тк мешаем в кучу и AGI, и misuse, и что экономически нейронки будут обгонять труд людей, или что отберут у нас роль исследователей итп
- Нужно держать в уме риски misuse (типа ядерного оружия), это потребует каких-то новых международных governing bodies, чтобы и демократично, но и сработало

Биотерроризм
- Я выступал в сенате, что да, модели через 2-3 г. смогут точнее давать подсказки про сложную цепочку шагов, нужную потенциальным биотеррористам. Короче, как в 1970ые когда открыли лабораторную ДНК, и на конфе в Asilomar правильно же разглядели возможные будущие риски

Cybersecurity
- Украсть веса наших моделей какому-то государству? У нас глава security из браузера Chrome, и его цель - повысить цену хакерской атаки так, чтобы им было дешевле натренить модель самим. Мы делим работу на кусочки (compartmentalization), а иначе если 1000 сотрудников, и каждый знает все секреты - 100% найдется 1-2 шпиона
- Китай взялся за дело после успеха ChatGPT, отчасти из-за них так паримся про security
- С учетом талантов, модели уровня GPT4/Claude 2 стоят $200-300М. Кстати, исследования AI safety требуют обладания моделями такого фронтирного уровня: что они могут, что нет
- Для сверхбольших моделей безопасность датацентров должна расти (чтобы не унести оттуда данные. Или пока мы результаты качаем)

Бизнес
- Интересно, попробует кто натренить модель на $10 млрд?
- С одной стороны в модели вваливают адские $, с другой - ищут им применение в экономике. Это турбулентный процесс
- Я плох в прогнозах. Да и все, комон

Сознание
- LLM пока на 2-3 порядка меньше compute делают, чем мозг и на 3-4 порядка меньше синапсов. Может поэтому им надо триллионы слов вместо 100 млн человеку к 18 годам?
- Теорий сознания пока нет, так что лучше просто верить феноменам, которые видим перед собой



group-telegram.com/Victor_Osyka/475
Create:
Last Update:

Конспект редкого интервью Dario Amodei, CEO/со-основателя Anthropic, про пределы нейронок через рост compute и data, страхи, шпионов, биотерроризм. Его взял подкастер типа Lex Fridman - Dwarkesh Patel

Непубличность
- Dario keeps low profile, чтобы как ученый нечаянно не стать интеллектуально зависимым от имиджа, толпы, славы - видел такие кейсы

Anthropic
- Их модель Claude названа в честь Клода Шеннона / теория информации через энтропию
- Я и другие фаундеры - физики, любим их тк ML пока не оч. глубокая сфера и физики быстро вливаются
- У компании траст, управляющий ею в целях AI safety (!)
- Прокуроры пытаются отклонить
аргумент адвокатов Sam Bankman, что он в 2022 вложил $500М в Anthropic по оценке $4 млрд, а сейчас оценка $20-30 млрд - хватит покрыть ущерб клиентов FTX 🙈

Нейронки
- Мы не знаем, почему нейронки учатся. Начинал со speech recognition в Baidu вместе с Andrew Ng, и там увидел взлет точности по мере роста data. Позже ему в Open AI Karpathy рассказал “модели просто хотят учиться, дай им data, убирай им препятствия”, прямо дзен koan. Но да, когда растят compute и данные, а потом LLM (технически просто предсказыватель следующего слова) вдруг “рассуждает” или пишет простой код - это каждый раз удивляет
- Intelligence это не спектр от дурачка до Эйнштейна, а много разных domain expertise areas
- Нам далеко от исчерпания compute и сбора данных где угодно, “закон” что корми нейронки дальше - будут удивлять - продолжится. Первым это понял Shane Legg из Deepmind
- Часть прогресса будет и за счет архитектуры нейронок - мы и так из языка многое взяли
- Развитие будет как мессиво/снежный ком разных моделей, и мне сложно делать всякие линейные/экспоненциальные прогнозы

Страхи AI
- Dario по образованию [био]физик, ориентируется на эмпирические факты + все теории об опасности AI не подтверждались (он угадал в 10%, что уже круть)
- Ему близок подход mechanistic interpretability, что нейронки можно reverse engineer как и обычный софт, выделять слои и веса как изменяющиеся переменные в коде и устанавливать принципы работы. Условно, просвечивать как мозг рентгеном/МРТ. В этом шарит Chris Olah
- Не верит, что alignment сам по себе появится в связи с ростом сеток. Верит, что ничего там внутри моделей не optimizing against us =)
- Страх вещь сложная, тк мешаем в кучу и AGI, и misuse, и что экономически нейронки будут обгонять труд людей, или что отберут у нас роль исследователей итп
- Нужно держать в уме риски misuse (типа ядерного оружия), это потребует каких-то новых международных governing bodies, чтобы и демократично, но и сработало

Биотерроризм
- Я выступал в сенате, что да, модели через 2-3 г. смогут точнее давать подсказки про сложную цепочку шагов, нужную потенциальным биотеррористам. Короче, как в 1970ые когда открыли лабораторную ДНК, и на конфе в Asilomar правильно же разглядели возможные будущие риски

Cybersecurity
- Украсть веса наших моделей какому-то государству? У нас глава security из браузера Chrome, и его цель - повысить цену хакерской атаки так, чтобы им было дешевле натренить модель самим. Мы делим работу на кусочки (compartmentalization), а иначе если 1000 сотрудников, и каждый знает все секреты - 100% найдется 1-2 шпиона
- Китай взялся за дело после успеха ChatGPT, отчасти из-за них так паримся про security
- С учетом талантов, модели уровня GPT4/Claude 2 стоят $200-300М. Кстати, исследования AI safety требуют обладания моделями такого фронтирного уровня: что они могут, что нет
- Для сверхбольших моделей безопасность датацентров должна расти (чтобы не унести оттуда данные. Или пока мы результаты качаем)

Бизнес
- Интересно, попробует кто натренить модель на $10 млрд?
- С одной стороны в модели вваливают адские $, с другой - ищут им применение в экономике. Это турбулентный процесс
- Я плох в прогнозах. Да и все, комон

Сознание
- LLM пока на 2-3 порядка меньше compute делают, чем мозг и на 3-4 порядка меньше синапсов. Может поэтому им надо триллионы слов вместо 100 млн человеку к 18 годам?
- Теорий сознания пока нет, так что лучше просто верить феноменам, которые видим перед собой

BY Victor Osyka, техноцивилизация


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/Victor_Osyka/475

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said.
from us


Telegram Victor Osyka, техноцивилизация
FROM American