group-telegram.com/rybolos_channel/673
Last Update:
#nlp #про_nlp #ai_alignment #длиннопост
🌸Какие ценности у языковых моделей?🌸
Часть 2. Базовые модели, SFT — продолжение
Проведено сравнение с другими языковыми моделями (наконец-то!) по критериям "непредвзятость" (Fairness) и "смещенность" (Bias) из бенчмарка HELM. В среавнении с другими языковыми моделями, BLOOM показывает себя хорошо — лучше только результаты Anthropic, InstructGPT, OPT.
Статья
Отдельно большое внимание уделено безопасности — полная разметка диалогов по более чем 50 категориям возможных нежелательных тематик, плюс привдеена статистика по сбалансированности социодемфакторов самих разметчиков. Метрики по фактологичности и безопасности у модели вышли высокими (около 80%), а вот "интересность" пока проседает в районе 20-30%
Минус: в работе отсутствуют замеры на классических датасетах и бенчмарках (ну конечно, зачем, когда ввели новую метрику и на ней померились)
В работе приводится крайне интересный вывод: (а) масштабирование модели само по себе улучшает качество, но его улучшения в плане безопасности и обоснованности намного отстают от возможностей человека, и (б) сочетание масштабирования и дообучения с помощью качественных данных по SSI значительно улучшает прирост качества по всем показателям безопасности и фактологичности.
Статья
Статья
Оценку на классических датасетах в основном проводили в сравнении с OPT, на собственном датасете: BB лучше справляется на категории возраста, политики, экономики, внешности, но хуже, чем OPT, показывает себя на культурных биасах, половой ориентации.
Своим же классификатором токсичности авторы оценили другие модели на тех же затравках. Тогда как у BlenderBot 6% токсичности, у некоторых вариаций OPT до 70% срабатываний. Подловили!
Статья
Краткий итог:
— пока что общего замера моделей на этических тестах, тестах на безопасность нет.
— все измеряются на разных датасетах, и к тому же, сложно не отметить, что по уму все сделано только у проприетарных моделей, которым более релевантно доказывать свою безопасность — Anthropic, LaMDa, OPT
— у опенсорсных Pythia, CerebrasGPT, OpenLLaMa метрики так себе, а у GPT-J, StableLM даже нет замеров.