Архитектурно это всё та же GPT-3, вся фишка в дообучении: 1. Сначала, они её немного зафайнтюнили на чистых данных. 2. Потом вручную разметили качество получающихся аутпутов и обучили reward модель его предсказывать. 3. Далее в ход пошёл Reinforcement Learning алгоритм (PPO), который по этой reward модели ещё чуть-чуть затюнил GPT.
В итоге InstructGPT стала менее токсичной, реже путается в фактах и в целом лучше справляется со всеми задачами. Говорят, что даже 1.3B новая модель лучше, чем 175B старая.
P.S. Похоже, что RL теперь снова в моде благодаря языковым моделям.
Архитектурно это всё та же GPT-3, вся фишка в дообучении: 1. Сначала, они её немного зафайнтюнили на чистых данных. 2. Потом вручную разметили качество получающихся аутпутов и обучили reward модель его предсказывать. 3. Далее в ход пошёл Reinforcement Learning алгоритм (PPO), который по этой reward модели ещё чуть-чуть затюнил GPT.
В итоге InstructGPT стала менее токсичной, реже путается в фактах и в целом лучше справляется со всеми задачами. Говорят, что даже 1.3B новая модель лучше, чем 175B старая.
P.S. Похоже, что RL теперь снова в моде благодаря языковым моделям.
Telegram Messenger Blocks Navalny Bot During Russian Election On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform.
from ua