group-telegram.com/F_S_C_P/110725
Last Update:
🔥DeepSeek R1 - уровень o1 бесплатно
Бенчи говорят сами за себя. Модель уже бесплатно доступна в чате (50 сообщений в день), веса выложены на HuggingFace. API дешёвый - в 30 раз дешевле o1, в 6 раз дешевле o1 mini. И всего в два раза дороже чем DeepSeek V3 без скидки.
Веса R1
Пейпер
Код
Не забыли DeepSeek и про простых смертных - компания выпустила целую линейку дистиллированых из R1 моделей.
Даже 1.5B моделька показывает себя лучше Sonnet и оригинальной 4o на математических бенчмарках, 14B уверенно обходит QwQ, а 32B - o1-mini (правда отстаёт на Codeforces).
Вместо дистилляции пробовали учить напрямую через RL на маленькой модельке, но результаты были сильно хуже. С дистилляцией модель может напрямую учиться у большей модели размышлять, а не самой искать эффективные способы размышления.
Интеллект для всех, даром, и пусть никто не уйдёт обиженный!
Qwen 1.5B
Qwen 7B
Llama 8B
Qwen 14B
Qwen 32B
Llama 70B
_______
Источник | #ai_newz
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot
BY FSCP
Share with your friend now:
group-telegram.com/F_S_C_P/110725