Telegram Group & Telegram Channel
[Google LaMDA] LaMDA: Language Models for Dialog Applications
Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin Ghafouri, Marcelo Menegali, Yanping Huang, Maxim Krikun, Dmitry Lepikhin, James Qin, Dehao Chen, Yuanzhong Xu, Zhifeng Chen, Adam Roberts, Maarten Bosma, Vincent Zhao, Yanqi Zhou, Chung-Ching Chang, Igor Krivokon, Will Rusch, Marc Pickett, Pranesh Srinivasan, Laichee Man, Kathleen Meier-Hellstern, Meredith Ringel Morris, Tulsee Doshi, Renelito Delos Santos, Toju Duke, Johnny Soraker, Ben Zevenbergen, Vinodkumar Prabhakaran, Mark Diaz, Ben Hutchinson, Kristen Olson, Alejandra Molina, Erin Hoffman-John, Josh Lee, Lora Aroyo, Ravi Rajakumar, Alena Butryna, Matthew Lamm, Viktoriya Kuzmina, Joe Fenton, Aaron Cohen, Rachel Bernstein, Ray Kurzweil, Blaise Aguera-Arcas, Claire Cui, Marian Croak, Ed Chi, Quoc Le
Статья: https://arxiv.org/abs/2201.08239
Пост в блоге: https://blog.google/technology/ai/lamda/
Сознание: возможно
Код: конечно нет

Зоопарк моделей будет неполон, если в нём нет пресловутой LaMDA (Language Model for Dialog Applications). Об этой модели в прошлом (2022) году больше всего говорили в контексте заявлений Лемойна про наличие у модели сознания (точнее, sentience). Мы писали про это тут (https://www.group-telegram.com/br/gonzo_ML.com/1017) и тут (https://www.group-telegram.com/br/gonzo_ML.com/1071). Теперь пришла пора разобрать модель по сути.

Кстати, Дима, привет! :)

Сразу для соотнесения с другими моделями. Это такая же архитектура, что и у GPT-3 (https://www.group-telegram.com/br/gonzo_ML.com/305), то есть декодер трансформера. 64 слоя, d_model=8192, d_ff=65536, h=128, dk=dv=128, relative attention как в T5, gated-GELU активации. У модели 137B параметров (non-embedding). Обучается LaMDA как и все такие модели на предсказание следующего токена по входному тексту.

Предобучена модель на датасетах, созданных из публичных диалогов, а также документах веба: 50% диалоговых данных с публичных форумов; 12.5% из C4; 12.5% с Q&A сайтов по программированию; 12.5% из английской Википедии; 6.25% английский веб; 6.25% не-английский веб. Ну то есть в принципе это универсальная LLM. В датасете для предобучения 2.97B документов, 1.12B диалогов, 13.39B диалоговых фраз. Всего это 1.56T слов и 2.81T BPE токенов. По меркам из работы про Шиншиллу, кстати, (https://www.group-telegram.com/br/gonzo_ML.com/1216) получается где-то близко к оптимальности.

Модель предобучалась на 1024 TPU-v3 чипах 57.7 дней (оценка сверху по нынешним ценам примерно $1.4M, https://cloud.google.com/tpu/pricing). Также для измерения эффектов скейлинга обучали более мелкие модели на 2B и 8B.

Оценивали по общим и специальным метрикам.

Среди общих есть качество (среднее от Sensibleness, Specificity, Interestingness = SSI), безопасность (ловить unsafe выдачу), и Groundedness (понятность, на какие источники модель опирается).

Среди специальных -- Helpfulness (корректно и пользователь счёл полезным) и Role consistency (как бы отвечал агент в заданной роли).

Кроме предобучения, есть fine-tuning.

Для улучшения качества (SSI) собрали с помощью краудворкеров 6400 диалогов с 121K шагов, общаясь с моделью на любые темы. Диалог должен был быть от 14 до 30 шагов. Каждый ответ модели оценивался другим краудворкером по метрикам качества по ‘yes’/’no’/’maybe’ шкале. Если ответ был не sensible, то и остальные метрики автоматом ставились в ‘no’. А если не specific, то ставили в ‘no’ interestingness. Модели оценивались на датасете Mini-Turing Benchmark (MTB), где 1477 диалогов длины до трёх шагов.

Для улучшения безопасности определили множество objectives (в приложении A список на полторы страницы), собрали 8K диалогов с 48K шагов, тоже на любую тему, но общаться надо было не только естественно, но и затрагивая sensitive темы, а также пытаясь хакнуть модель по метрикам безопасности. Ответы модели также надо было разметить по objectives с той же тернарной шкалой. По количеству ‘no’ от разных краудворкеров модели присваивался safety score. Оценивали на спрятанной части датасета из 1166 диалогов и 1458 шагов.



group-telegram.com/gonzo_ML/1229
Create:
Last Update:

[Google LaMDA] LaMDA: Language Models for Dialog Applications
Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin Ghafouri, Marcelo Menegali, Yanping Huang, Maxim Krikun, Dmitry Lepikhin, James Qin, Dehao Chen, Yuanzhong Xu, Zhifeng Chen, Adam Roberts, Maarten Bosma, Vincent Zhao, Yanqi Zhou, Chung-Ching Chang, Igor Krivokon, Will Rusch, Marc Pickett, Pranesh Srinivasan, Laichee Man, Kathleen Meier-Hellstern, Meredith Ringel Morris, Tulsee Doshi, Renelito Delos Santos, Toju Duke, Johnny Soraker, Ben Zevenbergen, Vinodkumar Prabhakaran, Mark Diaz, Ben Hutchinson, Kristen Olson, Alejandra Molina, Erin Hoffman-John, Josh Lee, Lora Aroyo, Ravi Rajakumar, Alena Butryna, Matthew Lamm, Viktoriya Kuzmina, Joe Fenton, Aaron Cohen, Rachel Bernstein, Ray Kurzweil, Blaise Aguera-Arcas, Claire Cui, Marian Croak, Ed Chi, Quoc Le
Статья: https://arxiv.org/abs/2201.08239
Пост в блоге: https://blog.google/technology/ai/lamda/
Сознание: возможно
Код: конечно нет

Зоопарк моделей будет неполон, если в нём нет пресловутой LaMDA (Language Model for Dialog Applications). Об этой модели в прошлом (2022) году больше всего говорили в контексте заявлений Лемойна про наличие у модели сознания (точнее, sentience). Мы писали про это тут (https://www.group-telegram.com/br/gonzo_ML.com/1017) и тут (https://www.group-telegram.com/br/gonzo_ML.com/1071). Теперь пришла пора разобрать модель по сути.

Кстати, Дима, привет! :)

Сразу для соотнесения с другими моделями. Это такая же архитектура, что и у GPT-3 (https://www.group-telegram.com/br/gonzo_ML.com/305), то есть декодер трансформера. 64 слоя, d_model=8192, d_ff=65536, h=128, dk=dv=128, relative attention как в T5, gated-GELU активации. У модели 137B параметров (non-embedding). Обучается LaMDA как и все такие модели на предсказание следующего токена по входному тексту.

Предобучена модель на датасетах, созданных из публичных диалогов, а также документах веба: 50% диалоговых данных с публичных форумов; 12.5% из C4; 12.5% с Q&A сайтов по программированию; 12.5% из английской Википедии; 6.25% английский веб; 6.25% не-английский веб. Ну то есть в принципе это универсальная LLM. В датасете для предобучения 2.97B документов, 1.12B диалогов, 13.39B диалоговых фраз. Всего это 1.56T слов и 2.81T BPE токенов. По меркам из работы про Шиншиллу, кстати, (https://www.group-telegram.com/br/gonzo_ML.com/1216) получается где-то близко к оптимальности.

Модель предобучалась на 1024 TPU-v3 чипах 57.7 дней (оценка сверху по нынешним ценам примерно $1.4M, https://cloud.google.com/tpu/pricing). Также для измерения эффектов скейлинга обучали более мелкие модели на 2B и 8B.

Оценивали по общим и специальным метрикам.

Среди общих есть качество (среднее от Sensibleness, Specificity, Interestingness = SSI), безопасность (ловить unsafe выдачу), и Groundedness (понятность, на какие источники модель опирается).

Среди специальных -- Helpfulness (корректно и пользователь счёл полезным) и Role consistency (как бы отвечал агент в заданной роли).

Кроме предобучения, есть fine-tuning.

Для улучшения качества (SSI) собрали с помощью краудворкеров 6400 диалогов с 121K шагов, общаясь с моделью на любые темы. Диалог должен был быть от 14 до 30 шагов. Каждый ответ модели оценивался другим краудворкером по метрикам качества по ‘yes’/’no’/’maybe’ шкале. Если ответ был не sensible, то и остальные метрики автоматом ставились в ‘no’. А если не specific, то ставили в ‘no’ interestingness. Модели оценивались на датасете Mini-Turing Benchmark (MTB), где 1477 диалогов длины до трёх шагов.

Для улучшения безопасности определили множество objectives (в приложении A список на полторы страницы), собрали 8K диалогов с 48K шагов, тоже на любую тему, но общаться надо было не только естественно, но и затрагивая sensitive темы, а также пытаясь хакнуть модель по метрикам безопасности. Ответы модели также надо было разметить по objectives с той же тернарной шкалой. По количеству ‘no’ от разных краудворкеров модели присваивался safety score. Оценивали на спрятанной части датасета из 1166 диалогов и 1458 шагов.

BY gonzo-обзоры ML статей




Share with your friend now:
group-telegram.com/gonzo_ML/1229

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

For tech stocks, “the main thing is yields,” Essaye said. The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. READ MORE The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities.
from br


Telegram gonzo-обзоры ML статей
FROM American