Архитектурно это всё та же GPT-3, вся фишка в дообучении: 1. Сначала, они её немного зафайнтюнили на чистых данных. 2. Потом вручную разметили качество получающихся аутпутов и обучили reward модель его предсказывать. 3. Далее в ход пошёл Reinforcement Learning алгоритм (PPO), который по этой reward модели ещё чуть-чуть затюнил GPT.
В итоге InstructGPT стала менее токсичной, реже путается в фактах и в целом лучше справляется со всеми задачами. Говорят, что даже 1.3B новая модель лучше, чем 175B старая.
P.S. Похоже, что RL теперь снова в моде благодаря языковым моделям.
Архитектурно это всё та же GPT-3, вся фишка в дообучении: 1. Сначала, они её немного зафайнтюнили на чистых данных. 2. Потом вручную разметили качество получающихся аутпутов и обучили reward модель его предсказывать. 3. Далее в ход пошёл Reinforcement Learning алгоритм (PPO), который по этой reward модели ещё чуть-чуть затюнил GPT.
В итоге InstructGPT стала менее токсичной, реже путается в фактах и в целом лучше справляется со всеми задачами. Говорят, что даже 1.3B новая модель лучше, чем 175B старая.
P.S. Похоже, что RL теперь снова в моде благодаря языковым моделям.
Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news. He adds: "Telegram has become my primary news source." Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov.
from tr