group-telegram.com/blockchainRF/10940
Last Update:
❗️Открытие Apple: оказывается у LLM есть особые "супер-веса", которые критически важны для работы всей модели
Исследователи также обнаружили, что эти "супер-веса" создают "супер-активации" - особо сильные сигналы, которые распространяются по всей сети модели.
Исследование проведено командой из Apple и Университета Нотр-Дам.
Представьте себе изменение всего одного параметра из миллиардов может полностью "сломать" работу всей модели.
Что это значит?
В моделях типа LLaMA-7B есть критически важные параметры.
Удаление такого параметра снижает точность модели до уровня случайного угадывания. При этом удаление даже 7000 других крупных весов влияет на качество работы минимально.
Это важно тем, что:
1. Меняет наше понимание работы нейросетей.
2. Открывает новые возможности для оптимизации моделей.
3. Позволяет эффективнее сжимать модели без потери качества.
GitHub.
BY Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Share with your friend now:
group-telegram.com/blockchainRF/10940