Telegram Group & Telegram Channel
[Google LaMDA] LaMDA: Language Models for Dialog Applications
Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin Ghafouri, Marcelo Menegali, Yanping Huang, Maxim Krikun, Dmitry Lepikhin, James Qin, Dehao Chen, Yuanzhong Xu, Zhifeng Chen, Adam Roberts, Maarten Bosma, Vincent Zhao, Yanqi Zhou, Chung-Ching Chang, Igor Krivokon, Will Rusch, Marc Pickett, Pranesh Srinivasan, Laichee Man, Kathleen Meier-Hellstern, Meredith Ringel Morris, Tulsee Doshi, Renelito Delos Santos, Toju Duke, Johnny Soraker, Ben Zevenbergen, Vinodkumar Prabhakaran, Mark Diaz, Ben Hutchinson, Kristen Olson, Alejandra Molina, Erin Hoffman-John, Josh Lee, Lora Aroyo, Ravi Rajakumar, Alena Butryna, Matthew Lamm, Viktoriya Kuzmina, Joe Fenton, Aaron Cohen, Rachel Bernstein, Ray Kurzweil, Blaise Aguera-Arcas, Claire Cui, Marian Croak, Ed Chi, Quoc Le
Статья: https://arxiv.org/abs/2201.08239
Пост в блоге: https://blog.google/technology/ai/lamda/
Сознание: возможно
Код: конечно нет

Зоопарк моделей будет неполон, если в нём нет пресловутой LaMDA (Language Model for Dialog Applications). Об этой модели в прошлом (2022) году больше всего говорили в контексте заявлений Лемойна про наличие у модели сознания (точнее, sentience). Мы писали про это тут (https://www.group-telegram.com/de/gonzo_ML.com/1017) и тут (https://www.group-telegram.com/de/gonzo_ML.com/1071). Теперь пришла пора разобрать модель по сути.

Кстати, Дима, привет! :)

Сразу для соотнесения с другими моделями. Это такая же архитектура, что и у GPT-3 (https://www.group-telegram.com/de/gonzo_ML.com/305), то есть декодер трансформера. 64 слоя, d_model=8192, d_ff=65536, h=128, dk=dv=128, relative attention как в T5, gated-GELU активации. У модели 137B параметров (non-embedding). Обучается LaMDA как и все такие модели на предсказание следующего токена по входному тексту.

Предобучена модель на датасетах, созданных из публичных диалогов, а также документах веба: 50% диалоговых данных с публичных форумов; 12.5% из C4; 12.5% с Q&A сайтов по программированию; 12.5% из английской Википедии; 6.25% английский веб; 6.25% не-английский веб. Ну то есть в принципе это универсальная LLM. В датасете для предобучения 2.97B документов, 1.12B диалогов, 13.39B диалоговых фраз. Всего это 1.56T слов и 2.81T BPE токенов. По меркам из работы про Шиншиллу, кстати, (https://www.group-telegram.com/de/gonzo_ML.com/1216) получается где-то близко к оптимальности.

Модель предобучалась на 1024 TPU-v3 чипах 57.7 дней (оценка сверху по нынешним ценам примерно $1.4M, https://cloud.google.com/tpu/pricing). Также для измерения эффектов скейлинга обучали более мелкие модели на 2B и 8B.

Оценивали по общим и специальным метрикам.

Среди общих есть качество (среднее от Sensibleness, Specificity, Interestingness = SSI), безопасность (ловить unsafe выдачу), и Groundedness (понятность, на какие источники модель опирается).

Среди специальных -- Helpfulness (корректно и пользователь счёл полезным) и Role consistency (как бы отвечал агент в заданной роли).

Кроме предобучения, есть fine-tuning.

Для улучшения качества (SSI) собрали с помощью краудворкеров 6400 диалогов с 121K шагов, общаясь с моделью на любые темы. Диалог должен был быть от 14 до 30 шагов. Каждый ответ модели оценивался другим краудворкером по метрикам качества по ‘yes’/’no’/’maybe’ шкале. Если ответ был не sensible, то и остальные метрики автоматом ставились в ‘no’. А если не specific, то ставили в ‘no’ interestingness. Модели оценивались на датасете Mini-Turing Benchmark (MTB), где 1477 диалогов длины до трёх шагов.

Для улучшения безопасности определили множество objectives (в приложении A список на полторы страницы), собрали 8K диалогов с 48K шагов, тоже на любую тему, но общаться надо было не только естественно, но и затрагивая sensitive темы, а также пытаясь хакнуть модель по метрикам безопасности. Ответы модели также надо было разметить по objectives с той же тернарной шкалой. По количеству ‘no’ от разных краудворкеров модели присваивался safety score. Оценивали на спрятанной части датасета из 1166 диалогов и 1458 шагов.



group-telegram.com/gonzo_ML/1229
Create:
Last Update:

[Google LaMDA] LaMDA: Language Models for Dialog Applications
Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin Ghafouri, Marcelo Menegali, Yanping Huang, Maxim Krikun, Dmitry Lepikhin, James Qin, Dehao Chen, Yuanzhong Xu, Zhifeng Chen, Adam Roberts, Maarten Bosma, Vincent Zhao, Yanqi Zhou, Chung-Ching Chang, Igor Krivokon, Will Rusch, Marc Pickett, Pranesh Srinivasan, Laichee Man, Kathleen Meier-Hellstern, Meredith Ringel Morris, Tulsee Doshi, Renelito Delos Santos, Toju Duke, Johnny Soraker, Ben Zevenbergen, Vinodkumar Prabhakaran, Mark Diaz, Ben Hutchinson, Kristen Olson, Alejandra Molina, Erin Hoffman-John, Josh Lee, Lora Aroyo, Ravi Rajakumar, Alena Butryna, Matthew Lamm, Viktoriya Kuzmina, Joe Fenton, Aaron Cohen, Rachel Bernstein, Ray Kurzweil, Blaise Aguera-Arcas, Claire Cui, Marian Croak, Ed Chi, Quoc Le
Статья: https://arxiv.org/abs/2201.08239
Пост в блоге: https://blog.google/technology/ai/lamda/
Сознание: возможно
Код: конечно нет

Зоопарк моделей будет неполон, если в нём нет пресловутой LaMDA (Language Model for Dialog Applications). Об этой модели в прошлом (2022) году больше всего говорили в контексте заявлений Лемойна про наличие у модели сознания (точнее, sentience). Мы писали про это тут (https://www.group-telegram.com/de/gonzo_ML.com/1017) и тут (https://www.group-telegram.com/de/gonzo_ML.com/1071). Теперь пришла пора разобрать модель по сути.

Кстати, Дима, привет! :)

Сразу для соотнесения с другими моделями. Это такая же архитектура, что и у GPT-3 (https://www.group-telegram.com/de/gonzo_ML.com/305), то есть декодер трансформера. 64 слоя, d_model=8192, d_ff=65536, h=128, dk=dv=128, relative attention как в T5, gated-GELU активации. У модели 137B параметров (non-embedding). Обучается LaMDA как и все такие модели на предсказание следующего токена по входному тексту.

Предобучена модель на датасетах, созданных из публичных диалогов, а также документах веба: 50% диалоговых данных с публичных форумов; 12.5% из C4; 12.5% с Q&A сайтов по программированию; 12.5% из английской Википедии; 6.25% английский веб; 6.25% не-английский веб. Ну то есть в принципе это универсальная LLM. В датасете для предобучения 2.97B документов, 1.12B диалогов, 13.39B диалоговых фраз. Всего это 1.56T слов и 2.81T BPE токенов. По меркам из работы про Шиншиллу, кстати, (https://www.group-telegram.com/de/gonzo_ML.com/1216) получается где-то близко к оптимальности.

Модель предобучалась на 1024 TPU-v3 чипах 57.7 дней (оценка сверху по нынешним ценам примерно $1.4M, https://cloud.google.com/tpu/pricing). Также для измерения эффектов скейлинга обучали более мелкие модели на 2B и 8B.

Оценивали по общим и специальным метрикам.

Среди общих есть качество (среднее от Sensibleness, Specificity, Interestingness = SSI), безопасность (ловить unsafe выдачу), и Groundedness (понятность, на какие источники модель опирается).

Среди специальных -- Helpfulness (корректно и пользователь счёл полезным) и Role consistency (как бы отвечал агент в заданной роли).

Кроме предобучения, есть fine-tuning.

Для улучшения качества (SSI) собрали с помощью краудворкеров 6400 диалогов с 121K шагов, общаясь с моделью на любые темы. Диалог должен был быть от 14 до 30 шагов. Каждый ответ модели оценивался другим краудворкером по метрикам качества по ‘yes’/’no’/’maybe’ шкале. Если ответ был не sensible, то и остальные метрики автоматом ставились в ‘no’. А если не specific, то ставили в ‘no’ interestingness. Модели оценивались на датасете Mini-Turing Benchmark (MTB), где 1477 диалогов длины до трёх шагов.

Для улучшения безопасности определили множество objectives (в приложении A список на полторы страницы), собрали 8K диалогов с 48K шагов, тоже на любую тему, но общаться надо было не только естественно, но и затрагивая sensitive темы, а также пытаясь хакнуть модель по метрикам безопасности. Ответы модели также надо было разметить по objectives с той же тернарной шкалой. По количеству ‘no’ от разных краудворкеров модели присваивался safety score. Оценивали на спрятанной части датасета из 1166 диалогов и 1458 шагов.

BY gonzo-обзоры ML статей




Share with your friend now:
group-telegram.com/gonzo_ML/1229

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Two days after Russia invaded Ukraine, an account on the Telegram messaging platform posing as President Volodymyr Zelenskiy urged his armed forces to surrender. The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai.
from de


Telegram gonzo-обзоры ML статей
FROM American