Telegram Group & Telegram Channel
DeepSeek V3 - новый опенсорс лидер

На общих бенчах тягается с Sonnet 3.5 и GPT-4o, уверенно оставляя Llama 405B позади. Но особенно хорошо моделька показывает себя в кодинге и математике, что не удивительно - модель дистиллировали из R1, конкурента o1 от DeepSeek. А вот по бенчам для агентов Claude всё ещё значительно лучше.

Ушло на тренировку всего 2.78 миллиона H800 часов, что очень мало - у Colossus, суперкомпьютера xAI, на тренировку такой модели даже сейчас уйдёт всего день, а ведь его хотят увеличить в 10 раз. Датасет 14.8 триллионах токенов. Не смотря на то что тренировали в fp8, тренировка была на удивление гладкая - им ни разу во время тренировки не пришлось ничего откатывать.

Архитектурно модель это преемник DeepSeek V2, но заметно больше - 671 миллиардов параметров, из которых 37 миллиардов активных (у меня есть пост о том как это работает). Теперь моделька может опционально предсказывать два токена за раз, что даёт 1.8x прирост в скорости. Устройство MoE слоя тоже слегка изменили - softmax в роутере заменили на сигмоид, а общий эксперт теперь всего один на слой. Практически убрали дополнительные лосс функции, которые нужны были для балансировки такого большого MoE, из-за чего увеличилась точность. Вот пейпер о том как это работает.

До 8 февраля стоимость будет такая же как у V2 ($0.14/$0.28), а после её планируют заметно повысить - до $0.27/$1.10 за миллион токенов. Цена за закэшированные токены на вход тоже вырастает - с $0.014 до $0.07 за миллион токенов, но само кэширование бесплатное и автоматическое, да и хранят кэш целые сутки (у OpenAI и Anthropic по 5-10 минут, у Google платится за час кэша). Позволить себе так играться с ценами они могут - ни один провайдер до сих пор не запустил инференс DeepSeek V2 за адекватные деньги, надеюсь сейчас ситуация с этим улучшится. Даже с таким повышением цен, модель будет очень дешёвая - в 10 раз дешевле Sonnet 3.5 и 4o.

Веса
Пейпер
Чат (со вчерашнего дня на DeepSeek V3)

@ai_newz



group-telegram.com/ai_newz/3584
Create:
Last Update:

DeepSeek V3 - новый опенсорс лидер

На общих бенчах тягается с Sonnet 3.5 и GPT-4o, уверенно оставляя Llama 405B позади. Но особенно хорошо моделька показывает себя в кодинге и математике, что не удивительно - модель дистиллировали из R1, конкурента o1 от DeepSeek. А вот по бенчам для агентов Claude всё ещё значительно лучше.

Ушло на тренировку всего 2.78 миллиона H800 часов, что очень мало - у Colossus, суперкомпьютера xAI, на тренировку такой модели даже сейчас уйдёт всего день, а ведь его хотят увеличить в 10 раз. Датасет 14.8 триллионах токенов. Не смотря на то что тренировали в fp8, тренировка была на удивление гладкая - им ни разу во время тренировки не пришлось ничего откатывать.

Архитектурно модель это преемник DeepSeek V2, но заметно больше - 671 миллиардов параметров, из которых 37 миллиардов активных (у меня есть пост о том как это работает). Теперь моделька может опционально предсказывать два токена за раз, что даёт 1.8x прирост в скорости. Устройство MoE слоя тоже слегка изменили - softmax в роутере заменили на сигмоид, а общий эксперт теперь всего один на слой. Практически убрали дополнительные лосс функции, которые нужны были для балансировки такого большого MoE, из-за чего увеличилась точность. Вот пейпер о том как это работает.

До 8 февраля стоимость будет такая же как у V2 ($0.14/$0.28), а после её планируют заметно повысить - до $0.27/$1.10 за миллион токенов. Цена за закэшированные токены на вход тоже вырастает - с $0.014 до $0.07 за миллион токенов, но само кэширование бесплатное и автоматическое, да и хранят кэш целые сутки (у OpenAI и Anthropic по 5-10 минут, у Google платится за час кэша). Позволить себе так играться с ценами они могут - ни один провайдер до сих пор не запустил инференс DeepSeek V2 за адекватные деньги, надеюсь сейчас ситуация с этим улучшится. Даже с таким повышением цен, модель будет очень дешёвая - в 10 раз дешевле Sonnet 3.5 и 4o.

Веса
Пейпер
Чат (со вчерашнего дня на DeepSeek V3)

@ai_newz

BY эйай ньюз





Share with your friend now:
group-telegram.com/ai_newz/3584

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war.
from tr


Telegram эйай ньюз
FROM American