Telegram Group & Telegram Channel
Scaling Language Models: Methods, Analysis & Insights from Training Gopher
Авторы: Jack W. Rae, и множество других
Статья: https://storage.googleapis.com/deepmind-media/research/language-research/Training%20Gopher.pdf
Пост в блоге: https://deepmind.com/blog/article/language-modelling-at-scale
Кода нет, модели нет, датасета нет :(

Мы ждали в этом году GPT-4 от OpenAI, а вместо неё вчера DeepMind опубликовала статью про Gopher, свою большую модель с той же архитектурой, что и GPT-3, но в 1.6 раза более тяжёлую. Как и GPT-3, Gopher это семейство моделей: 44M, 117M, 417M, 1.4B, 7.1B, 280B (у GPT-3 самая тяжёлая была 175B, https://www.group-telegram.com/cn/gonzo_ML.com/305).

На самом деле модель была обучена ещё в ноябре-декабре 2020, то есть год назад, но статья вышла только сейчас.

Авторов много, но пользуясь случаем передаю привет Коле Григорьеву :)

Архитектура заявлена практически как у GPT-2, но с двумя модификациями: RMSNorm вместо LayerNorm, да относительные позиционные эмбеддинги вместо абсолютных (что по идее позволяет оцениваться на последовательностях длиннее, чем были в обучении).

Текст токенизируется SentencePiece (32К словарь, у GPT-3 было 50К) с backoff до отдельных байтов, чтобы можно было работать с любым словарём. Размер контекста 2048, обучали Adam (что интересно, пробовали Adafactor, но не взлетело, оказался менее стабильным и итоговое качество давал хуже) с ухищрениями в виде прогрева и косинусного затухания.

Код модели на JAX (ну точно уже стал фреймворком №3, а дальше имеет шансы и обойти сладкую парочку TF/PyTorch, подробнее про JAX тут https://moocaholic.medium.com/jax-a13e83f49897), обучали на TPUv3.

Активно использовали формат bfloat16 (https://moocaholic.medium.com/fp64-fp32-fp16-bfloat16-tf32-and-other-members-of-the-zoo-a1ca7897d407).

Датасет собрали свой под названием MassiveText, куда замешали разные другие датасеты (MassiveWeb, Books, C4, News, Wikipedia и GitHub -- да-да, код). Всё тщательно пофильтровали, дедуплицировали, убрали повторы текста, порнографию, всячески упирали на качество датасета (что помогло). Всего датасет получился на 2.35B документов и примерно 10.5Тб текста. Обучали на 300B токенов, что примерно 12.8% всего датасета (ну то есть полностью по датасету не прошлись и раза), для этого сабсэмплили с заданными отдельно пропорциями.

Обучили, проверили на 152 задачах, взяли бейзлайны в виде GPT-3 (175B), Jurassic-1 (178B) и Megatron-Turing NLG (530B).

На 100 из 124 задач языкового моделирования Gopher лучше всех, бьёт GPT-3 и Jurassic-1.

На reading comprehension в лице RACE-m и RACE-h, экзамены middle- и high-school с задачами на множественный выбор, Gopher существенно превзошёл GPT-3 и Megatron-Turing NLG. До человека или до ансамблированной supervised модели не дотягивает, но зато сравним с Amazon Turk. Авторы считают, что здесь заслуга и размера модели, и датасета.

На commonsense reasoning Megatron-Turing NLG несколько обходит Gopher’а, но в целом все далеки от человека. Есть ещё где улучшаться!

На датасете FEVER для факт-чекинга обошёл supervised SOTA.

На корпусе задач MMLU (57 штук, вопросы экзаменов по разным дисциплинам) Gopher с 60% обошёл GPT-3 (43.9%) и зафайнтюненный T5 (48.9%, правда в 20+ раз меньшего размера), а также среднего человека (34.5%, кто этот средний, интересно, что лишь немногим выше рандома в 25%?), но до среднего эксперта с 89.8% далеко. Что интересно, оценки попали между предсказаниями на июнь 2022 и 2023 годов, то есть прогресс быстрее, чем ожидали спецы по прогнозированию (что, кстати, уже не в первый раз, когда реальный прогресс идёт быстрее, чем думают https://bair.berkeley.edu/blog/2021/10/14/forecasting/).

Отдельно авторы померяли, что даёт именно размер модели, когда датасет и число токенов в обучении строго одинаковые, но размер меняется. При сравнении 280B модели с 7.1B хорошо видны улучшения. Они почти везде, но всё-таки не везде (на abstract algebra, temporal sequences и high school math).



group-telegram.com/gonzo_ML/742
Create:
Last Update:

Scaling Language Models: Methods, Analysis & Insights from Training Gopher
Авторы: Jack W. Rae, и множество других
Статья: https://storage.googleapis.com/deepmind-media/research/language-research/Training%20Gopher.pdf
Пост в блоге: https://deepmind.com/blog/article/language-modelling-at-scale
Кода нет, модели нет, датасета нет :(

Мы ждали в этом году GPT-4 от OpenAI, а вместо неё вчера DeepMind опубликовала статью про Gopher, свою большую модель с той же архитектурой, что и GPT-3, но в 1.6 раза более тяжёлую. Как и GPT-3, Gopher это семейство моделей: 44M, 117M, 417M, 1.4B, 7.1B, 280B (у GPT-3 самая тяжёлая была 175B, https://www.group-telegram.com/cn/gonzo_ML.com/305).

На самом деле модель была обучена ещё в ноябре-декабре 2020, то есть год назад, но статья вышла только сейчас.

Авторов много, но пользуясь случаем передаю привет Коле Григорьеву :)

Архитектура заявлена практически как у GPT-2, но с двумя модификациями: RMSNorm вместо LayerNorm, да относительные позиционные эмбеддинги вместо абсолютных (что по идее позволяет оцениваться на последовательностях длиннее, чем были в обучении).

Текст токенизируется SentencePiece (32К словарь, у GPT-3 было 50К) с backoff до отдельных байтов, чтобы можно было работать с любым словарём. Размер контекста 2048, обучали Adam (что интересно, пробовали Adafactor, но не взлетело, оказался менее стабильным и итоговое качество давал хуже) с ухищрениями в виде прогрева и косинусного затухания.

Код модели на JAX (ну точно уже стал фреймворком №3, а дальше имеет шансы и обойти сладкую парочку TF/PyTorch, подробнее про JAX тут https://moocaholic.medium.com/jax-a13e83f49897), обучали на TPUv3.

Активно использовали формат bfloat16 (https://moocaholic.medium.com/fp64-fp32-fp16-bfloat16-tf32-and-other-members-of-the-zoo-a1ca7897d407).

Датасет собрали свой под названием MassiveText, куда замешали разные другие датасеты (MassiveWeb, Books, C4, News, Wikipedia и GitHub -- да-да, код). Всё тщательно пофильтровали, дедуплицировали, убрали повторы текста, порнографию, всячески упирали на качество датасета (что помогло). Всего датасет получился на 2.35B документов и примерно 10.5Тб текста. Обучали на 300B токенов, что примерно 12.8% всего датасета (ну то есть полностью по датасету не прошлись и раза), для этого сабсэмплили с заданными отдельно пропорциями.

Обучили, проверили на 152 задачах, взяли бейзлайны в виде GPT-3 (175B), Jurassic-1 (178B) и Megatron-Turing NLG (530B).

На 100 из 124 задач языкового моделирования Gopher лучше всех, бьёт GPT-3 и Jurassic-1.

На reading comprehension в лице RACE-m и RACE-h, экзамены middle- и high-school с задачами на множественный выбор, Gopher существенно превзошёл GPT-3 и Megatron-Turing NLG. До человека или до ансамблированной supervised модели не дотягивает, но зато сравним с Amazon Turk. Авторы считают, что здесь заслуга и размера модели, и датасета.

На commonsense reasoning Megatron-Turing NLG несколько обходит Gopher’а, но в целом все далеки от человека. Есть ещё где улучшаться!

На датасете FEVER для факт-чекинга обошёл supervised SOTA.

На корпусе задач MMLU (57 штук, вопросы экзаменов по разным дисциплинам) Gopher с 60% обошёл GPT-3 (43.9%) и зафайнтюненный T5 (48.9%, правда в 20+ раз меньшего размера), а также среднего человека (34.5%, кто этот средний, интересно, что лишь немногим выше рандома в 25%?), но до среднего эксперта с 89.8% далеко. Что интересно, оценки попали между предсказаниями на июнь 2022 и 2023 годов, то есть прогресс быстрее, чем ожидали спецы по прогнозированию (что, кстати, уже не в первый раз, когда реальный прогресс идёт быстрее, чем думают https://bair.berkeley.edu/blog/2021/10/14/forecasting/).

Отдельно авторы померяли, что даёт именно размер модели, когда датасет и число токенов в обучении строго одинаковые, но размер меняется. При сравнении 280B модели с 7.1B хорошо видны улучшения. Они почти везде, но всё-таки не везде (на abstract algebra, temporal sequences и high school math).

BY gonzo-обзоры ML статей


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gonzo_ML/742

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. Some privacy experts say Telegram is not secure enough Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours.
from cn


Telegram gonzo-обзоры ML статей
FROM American