[Google LaMDA] LaMDA: Language Models for Dialog Applications

gonzo-обзоры ML статей

[Google LaMDA] LaMDA: Language Models for Dialog Applications
Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin Ghafouri, Marcelo Menegali, Yanping Huang, Maxim Krikun, Dmitry Lepikhin, James Qin, Dehao Chen, Yuanzhong Xu, Zhifeng Chen, Adam Roberts, Maarten Bosma, Vincent Zhao, Yanqi Zhou, Chung-Ching Chang, Igor Krivokon, Will Rusch, Marc Pickett, Pranesh Srinivasan, Laichee Man, Kathleen Meier-Hellstern, Meredith Ringel Morris, Tulsee Doshi, Renelito Delos Santos, Toju Duke, Johnny Soraker, Ben Zevenbergen, Vinodkumar Prabhakaran, Mark Diaz, Ben Hutchinson, Kristen Olson, Alejandra Molina, Erin Hoffman-John, Josh Lee, Lora Aroyo, Ravi Rajakumar, Alena Butryna, Matthew Lamm, Viktoriya Kuzmina, Joe Fenton, Aaron Cohen, Rachel Bernstein, Ray Kurzweil, Blaise Aguera-Arcas, Claire Cui, Marian Croak, Ed Chi, Quoc Le
Статья: https://arxiv.org/abs/2201.08239
Пост в блоге: https://blog.google/technology/ai/lamda/
Сознание: возможно
Код: конечно нет

Зоопарк моделей будет неполон, если в нём нет пресловутой LaMDA (Language Model for Dialog Applications). Об этой модели в прошлом (2022) году больше всего говорили в контексте заявлений Лемойна про наличие у модели сознания (точнее, sentience). Мы писали про это тут (https://www.group-telegram.com/de/gonzo_ML.com/1017) и тут (https://www.group-telegram.com/de/gonzo_ML.com/1071). Теперь пришла пора разобрать модель по сути.

Кстати, Дима, привет! :)

Сразу для соотнесения с другими моделями. Это такая же архитектура, что и у GPT-3 (https://www.group-telegram.com/de/gonzo_ML.com/305), то есть декодер трансформера. 64 слоя, d_model=8192, d_ff=65536, h=128, dk=dv=128, relative attention как в T5, gated-GELU активации. У модели 137B параметров (non-embedding). Обучается LaMDA как и все такие модели на предсказание следующего токена по входному тексту.

Предобучена модель на датасетах, созданных из публичных диалогов, а также документах веба: 50% диалоговых данных с публичных форумов; 12.5% из C4; 12.5% с Q&A сайтов по программированию; 12.5% из английской Википедии; 6.25% английский веб; 6.25% не-английский веб. Ну то есть в принципе это универсальная LLM. В датасете для предобучения 2.97B документов, 1.12B диалогов, 13.39B диалоговых фраз. Всего это 1.56T слов и 2.81T BPE токенов. По меркам из работы про Шиншиллу, кстати, (https://www.group-telegram.com/de/gonzo_ML.com/1216) получается где-то близко к оптимальности.

Модель предобучалась на 1024 TPU-v3 чипах 57.7 дней (оценка сверху по нынешним ценам примерно $1.4M, https://cloud.google.com/tpu/pricing). Также для измерения эффектов скейлинга обучали более мелкие модели на 2B и 8B.

Оценивали по общим и специальным метрикам.

Среди общих есть качество (среднее от Sensibleness, Specificity, Interestingness = SSI), безопасность (ловить unsafe выдачу), и Groundedness (понятность, на какие источники модель опирается).

Среди специальных -- Helpfulness (корректно и пользователь счёл полезным) и Role consistency (как бы отвечал агент в заданной роли).

Кроме предобучения, есть fine-tuning.

Для улучшения качества (SSI) собрали с помощью краудворкеров 6400 диалогов с 121K шагов, общаясь с моделью на любые темы. Диалог должен был быть от 14 до 30 шагов. Каждый ответ модели оценивался другим краудворкером по метрикам качества по ‘yes’/’no’/’maybe’ шкале. Если ответ был не sensible, то и остальные метрики автоматом ставились в ‘no’. А если не specific, то ставили в ‘no’ interestingness. Модели оценивались на датасете Mini-Turing Benchmark (MTB), где 1477 диалогов длины до трёх шагов.

Для улучшения безопасности определили множество objectives (в приложении A список на полторы страницы), собрали 8K диалогов с 48K шагов, тоже на любую тему, но общаться надо было не только естественно, но и затрагивая sensitive темы, а также пытаясь хакнуть модель по метрикам безопасности. Ответы модели также надо было разметить по objectives с той же тернарной шкалой. По количеству ‘no’ от разных краудворкеров модели присваивался safety score. Оценивали на спрятанной части датасета из 1166 диалогов и 1458 шагов.

Google

LaMDA: our breakthrough conversation technology

LaMDA adds pieces to one of the most tantalizing sections of the language puzzle: conversation.

www.group-telegram.com/de/gonzo_ML.com/1229

2.9K viewsFeb 2, 2023 at 22:47

group-telegram.com/gonzo_ML/1229

Create: 2023-02-02
Last Update: 2025-02-21 21:01:56

BY gonzo-обзоры ML статей

Share with your friend now:
group-telegram.com/gonzo_ML/1229

Telegram | DID YOU KNOW?

[Google LaMDA] LaMDA: Language Models for Dialog Applications