group-telegram.com/dealerAI/1096
Last Update:
Про методы оптимизации, Дядин магистерский диссер и соревки в стиле Санта.
Закончился очередной новогодний фан от Гугла в виде традиционной соревки Santa2024.
В этот раз задача была простой (но Дядя не совсем согласен) и замешаны даже LLM. В общем, надо было делать перестановки заданных слов в фразах чтобы минимизировать перплексию в Gemma2-9b. Т.е. по сути, у нас модель - это среда, порождающая награду/функцию цели.
Сама задача похожа на проблему о перестановках/назначениях. У вас всегда есть фиксированный набор слов и позиций для них, как будто бы вы ищете позицию-работника и слово для него, а ёмкость труда есть итоговая перплексия.
Кстати, только что, мы декомпозировали задачу в известную постановку и тогда мы понимаем какой аппарат для решения нам нужен. Ввиду того,что это задача комбинаторной оптимизации можно пребегнуть к :
- Методам локального поиска (он же жадный алгоритм)
- Добавить методы рандомизации Монте-Карло, ака глобальный поиск.
- К метаэвристикам аля генетика, роевые методы (пчелы, рыбы, муравьи) и тп. Такие методы являются гибридом глобального и локального поиска.
Обычно такие методы гибридизируют еще с поиском с запретом, он же Табу, или поиском с развратом возвратом он же Отжиг. Метод с запретом имеет память в виде табу списка. Это может быть локальная память или глобальная. Если память локальная,то мы не возвращаемся к М последним решениям, если глобальная то туда "навсегда" вписываются самые плохие ходы. В случае с возвратом, мы с некоторой вероятностью просто делаем шаг назад от текущего решения к его предку. Цель перепрыгнуть локальный оптимум и избежать застреваний. Такую фишку можно включать если вы на К шагов застряли.
А еще очень важно правильно векторизовать задачку, в данном случае у вас есть вектор позиции слов, в каждой позиции-ячейке у вас лежит токен-слово. Чтобы сделать перестановку ее еще называют swap окрестностью, вы также можете за один шаг менять 2 слова местами в ячейке или сразу делать К замен подряд. Тоже своего рода поиск локально или в глубину.
Вопрос что выбрать лучше? Ответ: к сожалению,нет золотой пули, остается пробовать разные подходы и комбинации.
Итого в соревновании выйграли подходы с отжигом, однако, мне, как человеку, защитившему магу по оптам ии, кажется, что можно было сделать больше экспериментов и получить оригинальное решение.
Вот тут еще выжимка с топ решений.
https://www.group-telegram.com/pseudolabeling/225
Кстати, решение можно использовать для атак на модели, а также для улучшения робастности/устойчивости моделей.
BY Dealer.AI
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/dealerAI/1096