group-telegram.com/abstractDL/193
Last Update:
Саммари техрепорта про GPT-4
Если отложить в сторону шутки про отсутствие архитектурных деталей — в статье всё равно есть несколько интересных моментов.
Модель училась в два этапа: претрейнинг + RLHF, причём второй этап не улучшил перформанс на большинстве бенчмарков и даже испортил калибровку вероятностей (уверенности в ответах), но зато сделал модель менее токсичной и опасной.
Перед тем как обучать финальную «большую» версию GPT-4, все эксперименты и подбор гиперпараметров осуществялись на маленьких моделях, причём scaling low просчитали так точно, что получилось идеально предсказать итоговый лосс. Таким образом OpenAI сэкономили кучу денег на экспериментах.
Модель понимает очень много языков, причём даже на самых редких из них всё равно бьёт все предыдущие соты на MMLU. Также она обходит большинство экспертов на экзаменационных задачах (даже по юриспруденции и физике).
Ребята из ARC (это которые следят чтобы AI не убил человеков) проверили, что модель не сможет само-воспроизводиться и распространяться по интернету даже если ей дать такую возможность. Авторы предполагают, что файнтюнинг сможет это исправить 🌚
А ещё GPT-4, до того как её кастрировали с помощью RLHF, умела генерировать рецепты запрещённых веществ на основе того, что можно купить в аптеках.
P.S. Помните inverse scaling prize? Это где крупные LM работают хуже, чем маленькие — GPT-4 там всех победила! (может потому что она всё-таки маленькая? 😂)
Статья, блог, YouTube
BY AbstractDL
Share with your friend now:
group-telegram.com/abstractDL/193