Telegram Group & Telegram Channel
DeepSeek V3 - новый опенсорс лидер

На общих бенчах тягается с Sonnet 3.5 и GPT-4o, уверенно оставляя Llama 405B позади. Но особенно хорошо моделька показывает себя в кодинге и математике, что не удивительно - модель дистиллировали из R1, конкурента o1 от DeepSeek. А вот по бенчам для агентов Claude всё ещё значительно лучше.

Ушло на тренировку всего 2.78 миллиона H800 часов, что очень мало - у Colossus, суперкомпьютера xAI, на тренировку такой модели даже сейчас уйдёт всего день, а ведь его хотят увеличить в 10 раз. Датасет 14.8 триллионах токенов. Не смотря на то что тренировали в fp8, тренировка была на удивление гладкая - им ни разу во время тренировки не пришлось ничего откатывать.

Архитектурно модель это преемник DeepSeek V2, но заметно больше - 671 миллиард активных параметров, из которых 37 миллиардов активных (у меня есть пост о том как это работает). Теперь моделька может опционально предсказывать два токена за раз, что даёт 1.8x прирост в скорости. Устройство MoE слоя тоже слегка изменили - softmax в роутере заменили на сигмоид, а общий эксперт теперь всего один на слой. Практически убрали дополнительные лосс функции, которые нужны были для балансировки такого большого MoE, из-за чего увеличилась точность. Вот пейпер о том как это работает.

До 8 февраля стоимость будет такая же как у V2 ($0.14/$0.28), а после её планируют заметно повысить - до $0.27/$1.10 за миллион токенов. Цена за закэшированные токены на вход тоже вырастает - с $0.014 до $0.07 за миллион токенов, но само кэширование бесплатное и автоматическое, да и хранят кэш целые сутки (у OpenAI и Anthropic по 5-10 минут, у Google платится за час кэша). Позволить себе так играться с ценами они могут - ни один провайдер до сих пор не запустил инференс DeepSeek V2 за адекватные деньги, надеюсь сейчас ситуация с этим улучшится. Даже с таким повышением цен, модель будет очень дешёвая - в 10 раз дешевле Sonnet 3.5 и 4o.

Веса
Пейпер
Чат (со вчерашнего дня на DeepSeek V3)

@ai_newz



group-telegram.com/ai_newz/3585
Create:
Last Update:

DeepSeek V3 - новый опенсорс лидер

На общих бенчах тягается с Sonnet 3.5 и GPT-4o, уверенно оставляя Llama 405B позади. Но особенно хорошо моделька показывает себя в кодинге и математике, что не удивительно - модель дистиллировали из R1, конкурента o1 от DeepSeek. А вот по бенчам для агентов Claude всё ещё значительно лучше.

Ушло на тренировку всего 2.78 миллиона H800 часов, что очень мало - у Colossus, суперкомпьютера xAI, на тренировку такой модели даже сейчас уйдёт всего день, а ведь его хотят увеличить в 10 раз. Датасет 14.8 триллионах токенов. Не смотря на то что тренировали в fp8, тренировка была на удивление гладкая - им ни разу во время тренировки не пришлось ничего откатывать.

Архитектурно модель это преемник DeepSeek V2, но заметно больше - 671 миллиард активных параметров, из которых 37 миллиардов активных (у меня есть пост о том как это работает). Теперь моделька может опционально предсказывать два токена за раз, что даёт 1.8x прирост в скорости. Устройство MoE слоя тоже слегка изменили - softmax в роутере заменили на сигмоид, а общий эксперт теперь всего один на слой. Практически убрали дополнительные лосс функции, которые нужны были для балансировки такого большого MoE, из-за чего увеличилась точность. Вот пейпер о том как это работает.

До 8 февраля стоимость будет такая же как у V2 ($0.14/$0.28), а после её планируют заметно повысить - до $0.27/$1.10 за миллион токенов. Цена за закэшированные токены на вход тоже вырастает - с $0.014 до $0.07 за миллион токенов, но само кэширование бесплатное и автоматическое, да и хранят кэш целые сутки (у OpenAI и Anthropic по 5-10 минут, у Google платится за час кэша). Позволить себе так играться с ценами они могут - ни один провайдер до сих пор не запустил инференс DeepSeek V2 за адекватные деньги, надеюсь сейчас ситуация с этим улучшится. Даже с таким повышением цен, модель будет очень дешёвая - в 10 раз дешевле Sonnet 3.5 и 4o.

Веса
Пейпер
Чат (со вчерашнего дня на DeepSeek V3)

@ai_newz

BY эйай ньюз





Share with your friend now:
group-telegram.com/ai_newz/3585

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. Founder Pavel Durov says tech is meant to set you free Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.”
from br


Telegram эйай ньюз
FROM American