group-telegram.com/abstractDL/130
Create:
Last Update:
Last Update:
🔥InstructGPT: новое поколение GPT от OpenAI
Архитектурно это всё та же GPT-3, вся фишка в дообучении:
1. Сначала, они её немного зафайнтюнили на чистых данных.
2. Потом вручную разметили качество получающихся аутпутов и обучили reward модель его предсказывать.
3. Далее в ход пошёл Reinforcement Learning алгоритм (PPO), который по этой reward модели ещё чуть-чуть затюнил GPT.
В итоге InstructGPT стала менее токсичной, реже путается в фактах и в целом лучше справляется со всеми задачами. Говорят, что даже 1.3B новая модель лучше, чем 175B старая.
P.S. Похоже, что RL теперь снова в моде благодаря языковым моделям.
Статья, блог, GitHub
BY AbstractDL

Share with your friend now:
group-telegram.com/abstractDL/130