AbstractDL | Telegram Webview: abstractDL/130 -

Telegram Group & Telegram Channel

🔥InstructGPT: новое поколение GPT от OpenAI

Архитектурно это всё та же GPT-3, вся фишка в дообучении:
1. Сначала, они её немного зафайнтюнили на чистых данных.
2. Потом вручную разметили качество получающихся аутпутов и обучили reward модель его предсказывать.
3. Далее в ход пошёл Reinforcement Learning алгоритм (PPO), который по этой reward модели ещё чуть-чуть затюнил GPT.

В итоге InstructGPT стала менее токсичной, реже путается в фактах и в целом лучше справляется со всеми задачами. Говорят, что даже 1.3B новая модель лучше, чем 175B старая.

P.S. Похоже, что RL теперь снова в моде благодаря языковым моделям.

Статья, блог, GitHub

www.group-telegram.com/sa/abstractDL.com/130

13.5K viewsedited Jan 27, 2022 at 22:08

group-telegram.com/abstractDL/130

Create: 2022-01-27
Last Update: 2025-04-02 17:46:49

🔥InstructGPT: новое поколение GPT от OpenAI

Архитектурно это всё та же GPT-3, вся фишка в дообучении:
1. Сначала, они её немного зафайнтюнили на чистых данных.
2. Потом вручную разметили качество получающихся аутпутов и обучили reward модель его предсказывать.
3. Далее в ход пошёл Reinforcement Learning алгоритм (PPO), который по этой reward модели ещё чуть-чуть затюнил GPT.

В итоге InstructGPT стала менее токсичной, реже путается в фактах и в целом лучше справляется со всеми задачами. Говорят, что даже 1.3B новая модель лучше, чем 175B старая.

P.S. Похоже, что RL теперь снова в моде благодаря языковым моделям.

Статья, блог, GitHub

BY AbstractDL

Share with your friend now:
group-telegram.com/abstractDL/130

Open in Telegram

Telegram | DID YOU KNOW?

Date: 2025-04-02|

"This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. For tech stocks, “the main thing is yields,” Essaye said. The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke.
from sa

Telegram AbstractDL
FROM American