Telegram Group & Telegram Channel
[Google LaMDA] LaMDA: Language Models for Dialog Applications
Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin Ghafouri, Marcelo Menegali, Yanping Huang, Maxim Krikun, Dmitry Lepikhin, James Qin, Dehao Chen, Yuanzhong Xu, Zhifeng Chen, Adam Roberts, Maarten Bosma, Vincent Zhao, Yanqi Zhou, Chung-Ching Chang, Igor Krivokon, Will Rusch, Marc Pickett, Pranesh Srinivasan, Laichee Man, Kathleen Meier-Hellstern, Meredith Ringel Morris, Tulsee Doshi, Renelito Delos Santos, Toju Duke, Johnny Soraker, Ben Zevenbergen, Vinodkumar Prabhakaran, Mark Diaz, Ben Hutchinson, Kristen Olson, Alejandra Molina, Erin Hoffman-John, Josh Lee, Lora Aroyo, Ravi Rajakumar, Alena Butryna, Matthew Lamm, Viktoriya Kuzmina, Joe Fenton, Aaron Cohen, Rachel Bernstein, Ray Kurzweil, Blaise Aguera-Arcas, Claire Cui, Marian Croak, Ed Chi, Quoc Le
Статья: https://arxiv.org/abs/2201.08239
Пост в блоге: https://blog.google/technology/ai/lamda/
Сознание: возможно
Код: конечно нет

Зоопарк моделей будет неполон, если в нём нет пресловутой LaMDA (Language Model for Dialog Applications). Об этой модели в прошлом (2022) году больше всего говорили в контексте заявлений Лемойна про наличие у модели сознания (точнее, sentience). Мы писали про это тут (https://www.group-telegram.com/ca/gonzo_ML.com/1017) и тут (https://www.group-telegram.com/ca/gonzo_ML.com/1071). Теперь пришла пора разобрать модель по сути.

Кстати, Дима, привет! :)

Сразу для соотнесения с другими моделями. Это такая же архитектура, что и у GPT-3 (https://www.group-telegram.com/ca/gonzo_ML.com/305), то есть декодер трансформера. 64 слоя, d_model=8192, d_ff=65536, h=128, dk=dv=128, relative attention как в T5, gated-GELU активации. У модели 137B параметров (non-embedding). Обучается LaMDA как и все такие модели на предсказание следующего токена по входному тексту.

Предобучена модель на датасетах, созданных из публичных диалогов, а также документах веба: 50% диалоговых данных с публичных форумов; 12.5% из C4; 12.5% с Q&A сайтов по программированию; 12.5% из английской Википедии; 6.25% английский веб; 6.25% не-английский веб. Ну то есть в принципе это универсальная LLM. В датасете для предобучения 2.97B документов, 1.12B диалогов, 13.39B диалоговых фраз. Всего это 1.56T слов и 2.81T BPE токенов. По меркам из работы про Шиншиллу, кстати, (https://www.group-telegram.com/ca/gonzo_ML.com/1216) получается где-то близко к оптимальности.

Модель предобучалась на 1024 TPU-v3 чипах 57.7 дней (оценка сверху по нынешним ценам примерно $1.4M, https://cloud.google.com/tpu/pricing). Также для измерения эффектов скейлинга обучали более мелкие модели на 2B и 8B.

Оценивали по общим и специальным метрикам.

Среди общих есть качество (среднее от Sensibleness, Specificity, Interestingness = SSI), безопасность (ловить unsafe выдачу), и Groundedness (понятность, на какие источники модель опирается).

Среди специальных -- Helpfulness (корректно и пользователь счёл полезным) и Role consistency (как бы отвечал агент в заданной роли).

Кроме предобучения, есть fine-tuning.

Для улучшения качества (SSI) собрали с помощью краудворкеров 6400 диалогов с 121K шагов, общаясь с моделью на любые темы. Диалог должен был быть от 14 до 30 шагов. Каждый ответ модели оценивался другим краудворкером по метрикам качества по ‘yes’/’no’/’maybe’ шкале. Если ответ был не sensible, то и остальные метрики автоматом ставились в ‘no’. А если не specific, то ставили в ‘no’ interestingness. Модели оценивались на датасете Mini-Turing Benchmark (MTB), где 1477 диалогов длины до трёх шагов.

Для улучшения безопасности определили множество objectives (в приложении A список на полторы страницы), собрали 8K диалогов с 48K шагов, тоже на любую тему, но общаться надо было не только естественно, но и затрагивая sensitive темы, а также пытаясь хакнуть модель по метрикам безопасности. Ответы модели также надо было разметить по objectives с той же тернарной шкалой. По количеству ‘no’ от разных краудворкеров модели присваивался safety score. Оценивали на спрятанной части датасета из 1166 диалогов и 1458 шагов.



group-telegram.com/gonzo_ML/1229
Create:
Last Update:

[Google LaMDA] LaMDA: Language Models for Dialog Applications
Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin Ghafouri, Marcelo Menegali, Yanping Huang, Maxim Krikun, Dmitry Lepikhin, James Qin, Dehao Chen, Yuanzhong Xu, Zhifeng Chen, Adam Roberts, Maarten Bosma, Vincent Zhao, Yanqi Zhou, Chung-Ching Chang, Igor Krivokon, Will Rusch, Marc Pickett, Pranesh Srinivasan, Laichee Man, Kathleen Meier-Hellstern, Meredith Ringel Morris, Tulsee Doshi, Renelito Delos Santos, Toju Duke, Johnny Soraker, Ben Zevenbergen, Vinodkumar Prabhakaran, Mark Diaz, Ben Hutchinson, Kristen Olson, Alejandra Molina, Erin Hoffman-John, Josh Lee, Lora Aroyo, Ravi Rajakumar, Alena Butryna, Matthew Lamm, Viktoriya Kuzmina, Joe Fenton, Aaron Cohen, Rachel Bernstein, Ray Kurzweil, Blaise Aguera-Arcas, Claire Cui, Marian Croak, Ed Chi, Quoc Le
Статья: https://arxiv.org/abs/2201.08239
Пост в блоге: https://blog.google/technology/ai/lamda/
Сознание: возможно
Код: конечно нет

Зоопарк моделей будет неполон, если в нём нет пресловутой LaMDA (Language Model for Dialog Applications). Об этой модели в прошлом (2022) году больше всего говорили в контексте заявлений Лемойна про наличие у модели сознания (точнее, sentience). Мы писали про это тут (https://www.group-telegram.com/ca/gonzo_ML.com/1017) и тут (https://www.group-telegram.com/ca/gonzo_ML.com/1071). Теперь пришла пора разобрать модель по сути.

Кстати, Дима, привет! :)

Сразу для соотнесения с другими моделями. Это такая же архитектура, что и у GPT-3 (https://www.group-telegram.com/ca/gonzo_ML.com/305), то есть декодер трансформера. 64 слоя, d_model=8192, d_ff=65536, h=128, dk=dv=128, relative attention как в T5, gated-GELU активации. У модели 137B параметров (non-embedding). Обучается LaMDA как и все такие модели на предсказание следующего токена по входному тексту.

Предобучена модель на датасетах, созданных из публичных диалогов, а также документах веба: 50% диалоговых данных с публичных форумов; 12.5% из C4; 12.5% с Q&A сайтов по программированию; 12.5% из английской Википедии; 6.25% английский веб; 6.25% не-английский веб. Ну то есть в принципе это универсальная LLM. В датасете для предобучения 2.97B документов, 1.12B диалогов, 13.39B диалоговых фраз. Всего это 1.56T слов и 2.81T BPE токенов. По меркам из работы про Шиншиллу, кстати, (https://www.group-telegram.com/ca/gonzo_ML.com/1216) получается где-то близко к оптимальности.

Модель предобучалась на 1024 TPU-v3 чипах 57.7 дней (оценка сверху по нынешним ценам примерно $1.4M, https://cloud.google.com/tpu/pricing). Также для измерения эффектов скейлинга обучали более мелкие модели на 2B и 8B.

Оценивали по общим и специальным метрикам.

Среди общих есть качество (среднее от Sensibleness, Specificity, Interestingness = SSI), безопасность (ловить unsafe выдачу), и Groundedness (понятность, на какие источники модель опирается).

Среди специальных -- Helpfulness (корректно и пользователь счёл полезным) и Role consistency (как бы отвечал агент в заданной роли).

Кроме предобучения, есть fine-tuning.

Для улучшения качества (SSI) собрали с помощью краудворкеров 6400 диалогов с 121K шагов, общаясь с моделью на любые темы. Диалог должен был быть от 14 до 30 шагов. Каждый ответ модели оценивался другим краудворкером по метрикам качества по ‘yes’/’no’/’maybe’ шкале. Если ответ был не sensible, то и остальные метрики автоматом ставились в ‘no’. А если не specific, то ставили в ‘no’ interestingness. Модели оценивались на датасете Mini-Turing Benchmark (MTB), где 1477 диалогов длины до трёх шагов.

Для улучшения безопасности определили множество objectives (в приложении A список на полторы страницы), собрали 8K диалогов с 48K шагов, тоже на любую тему, но общаться надо было не только естественно, но и затрагивая sensitive темы, а также пытаясь хакнуть модель по метрикам безопасности. Ответы модели также надо было разметить по objectives с той же тернарной шкалой. По количеству ‘no’ от разных краудворкеров модели присваивался safety score. Оценивали на спрятанной части датасета из 1166 диалогов и 1458 шагов.

BY gonzo-обзоры ML статей




Share with your friend now:
group-telegram.com/gonzo_ML/1229

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market.
from ca


Telegram gonzo-обзоры ML статей
FROM American