group-telegram.com/senior_augur/339
Last Update:
Learned Embedding Propagation (LEP) + анонс релиза RuadaptQwQ-32B
Расскажу немного подробнее про идею, которая стоит за текущими версиями Ruadapt моделей. Наше предыдущее решение требовало после адаптации базовых версий моделей дополнительно их дообучать по сути с “базы”, из-за чего терялись многие успешные инструктивные версии моделей, которые нельзя просто взять и воспроизвести из-за отсутствия обучающих данных (те же 10 миллионов инструкций LLaMa-3 не были открыты комьюнити). Другим ярким примером может послужить недавняя Qwen/QwQ-32B-Preview, так как не понятно как ее учили и на каких данных.
Тут то на помощь и приходит предложенный нами метод Learned Embedding Propagation (LEP). Идея метода состоит из 3 шагов:
1. На первом шаге мы также адаптируем исходную базовую модель
2 . На втором шаге мы рассчитываем проекцию из исходной базы в целевую исходную инструктивную версию (например, из Qwen/Qwen2.5-32B
3. На третьем шаге мы применяем данную проекцию
4. На самом деле есть еще 4-й шаг, по сути очень важный, это шаг калибровки / дообучения, но он “опционален”
В итоге, после 3 шага мы по сути имеем адаптированную инструктивную версию модели, и при этом она не сломалась и работает весьма успешно уже на новой токенизации, но из-за неточностей отображения качество несколько просаживается и могут быть новые артефакты. Поэтому все модели, которые мы выкладывали ранее, дополнительно калибровались/дообучались на открытых инструктивных данных, таких как saiga_scored.
А теперь обращу внимание вот на что.
Самое дорогое - это как раз первый шаг, адаптация базовой версии модели и в этом шаге нигде не используется никакая информация о будущей инструктивной версии, а значит, адаптировав базу и применяя LEP, мы можем адаптировать модель на любую инструктивную версию с этой базы!
И вот возьмем, недавно вышедшую Qwen/QwQ-32B-Preview, несмотря на то, что мы вообще не знаем как и на чем она обучалась, мы знаем, что ее базой является, Qwen/Qwen2.5-32B, поэтому мы легко можем сделать версию RuadaptQwQ-32B-Preview-LEP. С шагом 4 тут посложнее, так как хороших данных для подобного типа моделей я пока что не видел. На текущий момент предлагаю попробовать RuadaptQwQ-32B-Preview-LEP в поднятом Space (https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5), но обращаю внимание, это модель сразу после LEP, без дополнительных шагов дообучения, да и тестирования особо никакого с этой моделью пока не производилось.
Соответственно релиз RuadaptQwQ в планах, но через какое-то время. Буду рад фидбеку по любой из наших моделей в комментариях к посту или другим любым способом.