Telegram Group & Telegram Channel
Scaling Language Models: Methods, Analysis & Insights from Training Gopher
Авторы: Jack W. Rae, и множество других
Статья: https://storage.googleapis.com/deepmind-media/research/language-research/Training%20Gopher.pdf
Пост в блоге: https://deepmind.com/blog/article/language-modelling-at-scale
Кода нет, модели нет, датасета нет :(

Мы ждали в этом году GPT-4 от OpenAI, а вместо неё вчера DeepMind опубликовала статью про Gopher, свою большую модель с той же архитектурой, что и GPT-3, но в 1.6 раза более тяжёлую. Как и GPT-3, Gopher это семейство моделей: 44M, 117M, 417M, 1.4B, 7.1B, 280B (у GPT-3 самая тяжёлая была 175B, https://www.group-telegram.com/kr/gonzo_ML.com/305).

На самом деле модель была обучена ещё в ноябре-декабре 2020, то есть год назад, но статья вышла только сейчас.

Авторов много, но пользуясь случаем передаю привет Коле Григорьеву :)

Архитектура заявлена практически как у GPT-2, но с двумя модификациями: RMSNorm вместо LayerNorm, да относительные позиционные эмбеддинги вместо абсолютных (что по идее позволяет оцениваться на последовательностях длиннее, чем были в обучении).

Текст токенизируется SentencePiece (32К словарь, у GPT-3 было 50К) с backoff до отдельных байтов, чтобы можно было работать с любым словарём. Размер контекста 2048, обучали Adam (что интересно, пробовали Adafactor, но не взлетело, оказался менее стабильным и итоговое качество давал хуже) с ухищрениями в виде прогрева и косинусного затухания.

Код модели на JAX (ну точно уже стал фреймворком №3, а дальше имеет шансы и обойти сладкую парочку TF/PyTorch, подробнее про JAX тут https://moocaholic.medium.com/jax-a13e83f49897), обучали на TPUv3.

Активно использовали формат bfloat16 (https://moocaholic.medium.com/fp64-fp32-fp16-bfloat16-tf32-and-other-members-of-the-zoo-a1ca7897d407).

Датасет собрали свой под названием MassiveText, куда замешали разные другие датасеты (MassiveWeb, Books, C4, News, Wikipedia и GitHub -- да-да, код). Всё тщательно пофильтровали, дедуплицировали, убрали повторы текста, порнографию, всячески упирали на качество датасета (что помогло). Всего датасет получился на 2.35B документов и примерно 10.5Тб текста. Обучали на 300B токенов, что примерно 12.8% всего датасета (ну то есть полностью по датасету не прошлись и раза), для этого сабсэмплили с заданными отдельно пропорциями.

Обучили, проверили на 152 задачах, взяли бейзлайны в виде GPT-3 (175B), Jurassic-1 (178B) и Megatron-Turing NLG (530B).

На 100 из 124 задач языкового моделирования Gopher лучше всех, бьёт GPT-3 и Jurassic-1.

На reading comprehension в лице RACE-m и RACE-h, экзамены middle- и high-school с задачами на множественный выбор, Gopher существенно превзошёл GPT-3 и Megatron-Turing NLG. До человека или до ансамблированной supervised модели не дотягивает, но зато сравним с Amazon Turk. Авторы считают, что здесь заслуга и размера модели, и датасета.

На commonsense reasoning Megatron-Turing NLG несколько обходит Gopher’а, но в целом все далеки от человека. Есть ещё где улучшаться!

На датасете FEVER для факт-чекинга обошёл supervised SOTA.

На корпусе задач MMLU (57 штук, вопросы экзаменов по разным дисциплинам) Gopher с 60% обошёл GPT-3 (43.9%) и зафайнтюненный T5 (48.9%, правда в 20+ раз меньшего размера), а также среднего человека (34.5%, кто этот средний, интересно, что лишь немногим выше рандома в 25%?), но до среднего эксперта с 89.8% далеко. Что интересно, оценки попали между предсказаниями на июнь 2022 и 2023 годов, то есть прогресс быстрее, чем ожидали спецы по прогнозированию (что, кстати, уже не в первый раз, когда реальный прогресс идёт быстрее, чем думают https://bair.berkeley.edu/blog/2021/10/14/forecasting/).

Отдельно авторы померяли, что даёт именно размер модели, когда датасет и число токенов в обучении строго одинаковые, но размер меняется. При сравнении 280B модели с 7.1B хорошо видны улучшения. Они почти везде, но всё-таки не везде (на abstract algebra, temporal sequences и high school math).



group-telegram.com/gonzo_ML/742
Create:
Last Update:

Scaling Language Models: Methods, Analysis & Insights from Training Gopher
Авторы: Jack W. Rae, и множество других
Статья: https://storage.googleapis.com/deepmind-media/research/language-research/Training%20Gopher.pdf
Пост в блоге: https://deepmind.com/blog/article/language-modelling-at-scale
Кода нет, модели нет, датасета нет :(

Мы ждали в этом году GPT-4 от OpenAI, а вместо неё вчера DeepMind опубликовала статью про Gopher, свою большую модель с той же архитектурой, что и GPT-3, но в 1.6 раза более тяжёлую. Как и GPT-3, Gopher это семейство моделей: 44M, 117M, 417M, 1.4B, 7.1B, 280B (у GPT-3 самая тяжёлая была 175B, https://www.group-telegram.com/kr/gonzo_ML.com/305).

На самом деле модель была обучена ещё в ноябре-декабре 2020, то есть год назад, но статья вышла только сейчас.

Авторов много, но пользуясь случаем передаю привет Коле Григорьеву :)

Архитектура заявлена практически как у GPT-2, но с двумя модификациями: RMSNorm вместо LayerNorm, да относительные позиционные эмбеддинги вместо абсолютных (что по идее позволяет оцениваться на последовательностях длиннее, чем были в обучении).

Текст токенизируется SentencePiece (32К словарь, у GPT-3 было 50К) с backoff до отдельных байтов, чтобы можно было работать с любым словарём. Размер контекста 2048, обучали Adam (что интересно, пробовали Adafactor, но не взлетело, оказался менее стабильным и итоговое качество давал хуже) с ухищрениями в виде прогрева и косинусного затухания.

Код модели на JAX (ну точно уже стал фреймворком №3, а дальше имеет шансы и обойти сладкую парочку TF/PyTorch, подробнее про JAX тут https://moocaholic.medium.com/jax-a13e83f49897), обучали на TPUv3.

Активно использовали формат bfloat16 (https://moocaholic.medium.com/fp64-fp32-fp16-bfloat16-tf32-and-other-members-of-the-zoo-a1ca7897d407).

Датасет собрали свой под названием MassiveText, куда замешали разные другие датасеты (MassiveWeb, Books, C4, News, Wikipedia и GitHub -- да-да, код). Всё тщательно пофильтровали, дедуплицировали, убрали повторы текста, порнографию, всячески упирали на качество датасета (что помогло). Всего датасет получился на 2.35B документов и примерно 10.5Тб текста. Обучали на 300B токенов, что примерно 12.8% всего датасета (ну то есть полностью по датасету не прошлись и раза), для этого сабсэмплили с заданными отдельно пропорциями.

Обучили, проверили на 152 задачах, взяли бейзлайны в виде GPT-3 (175B), Jurassic-1 (178B) и Megatron-Turing NLG (530B).

На 100 из 124 задач языкового моделирования Gopher лучше всех, бьёт GPT-3 и Jurassic-1.

На reading comprehension в лице RACE-m и RACE-h, экзамены middle- и high-school с задачами на множественный выбор, Gopher существенно превзошёл GPT-3 и Megatron-Turing NLG. До человека или до ансамблированной supervised модели не дотягивает, но зато сравним с Amazon Turk. Авторы считают, что здесь заслуга и размера модели, и датасета.

На commonsense reasoning Megatron-Turing NLG несколько обходит Gopher’а, но в целом все далеки от человека. Есть ещё где улучшаться!

На датасете FEVER для факт-чекинга обошёл supervised SOTA.

На корпусе задач MMLU (57 штук, вопросы экзаменов по разным дисциплинам) Gopher с 60% обошёл GPT-3 (43.9%) и зафайнтюненный T5 (48.9%, правда в 20+ раз меньшего размера), а также среднего человека (34.5%, кто этот средний, интересно, что лишь немногим выше рандома в 25%?), но до среднего эксперта с 89.8% далеко. Что интересно, оценки попали между предсказаниями на июнь 2022 и 2023 годов, то есть прогресс быстрее, чем ожидали спецы по прогнозированию (что, кстати, уже не в первый раз, когда реальный прогресс идёт быстрее, чем думают https://bair.berkeley.edu/blog/2021/10/14/forecasting/).

Отдельно авторы померяли, что даёт именно размер модели, когда датасет и число токенов в обучении строго одинаковые, но размер меняется. При сравнении 280B модели с 7.1B хорошо видны улучшения. Они почти везде, но всё-таки не везде (на abstract algebra, temporal sequences и high school math).

BY gonzo-обзоры ML статей


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gonzo_ML/742

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war.
from kr


Telegram gonzo-обзоры ML статей
FROM American