Telegram Group & Telegram Channel
🔥InstructGPT: новое поколение GPT от OpenAI

Архитектурно это всё та же GPT-3, вся фишка в дообучении:
1. Сначала, они её немного зафайнтюнили на чистых данных.
2. Потом вручную разметили качество получающихся аутпутов и обучили reward модель его предсказывать.
3. Далее в ход пошёл Reinforcement Learning алгоритм (PPO), который по этой reward модели ещё чуть-чуть затюнил GPT.

В итоге InstructGPT стала менее токсичной, реже путается в фактах и в целом лучше справляется со всеми задачами. Говорят, что даже 1.3B новая модель лучше, чем 175B старая.

P.S. Похоже, что RL теперь снова в моде благодаря языковым моделям.

Статья, блог, GitHub



group-telegram.com/abstractDL/130
Create:
Last Update:

🔥InstructGPT: новое поколение GPT от OpenAI

Архитектурно это всё та же GPT-3, вся фишка в дообучении:
1. Сначала, они её немного зафайнтюнили на чистых данных.
2. Потом вручную разметили качество получающихся аутпутов и обучили reward модель его предсказывать.
3. Далее в ход пошёл Reinforcement Learning алгоритм (PPO), который по этой reward модели ещё чуть-чуть затюнил GPT.

В итоге InstructGPT стала менее токсичной, реже путается в фактах и в целом лучше справляется со всеми задачами. Говорят, что даже 1.3B новая модель лучше, чем 175B старая.

P.S. Похоже, что RL теперь снова в моде благодаря языковым моделям.

Статья, блог, GitHub

BY AbstractDL




Share with your friend now:
group-telegram.com/abstractDL/130

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." Some privacy experts say Telegram is not secure enough He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations.
from ca


Telegram AbstractDL
FROM American