Notice: file_put_contents(): Write of 13316 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
эйай ньюз | Telegram Webview: ai_newz/3585 -
Telegram Group & Telegram Channel
DeepSeek V3 - новый опенсорс лидер

На общих бенчах тягается с Sonnet 3.5 и GPT-4o, уверенно оставляя Llama 405B позади. Но особенно хорошо моделька показывает себя в кодинге и математике, что не удивительно - модель дистиллировали из R1, конкурента o1 от DeepSeek. А вот по бенчам для агентов Claude всё ещё значительно лучше.

Ушло на тренировку всего 2.78 миллиона H800 часов, что очень мало - у Colossus, суперкомпьютера xAI, на тренировку такой модели даже сейчас уйдёт всего день, а ведь его хотят увеличить в 10 раз. Датасет 14.8 триллионах токенов. Не смотря на то что тренировали в fp8, тренировка была на удивление гладкая - им ни разу во время тренировки не пришлось ничего откатывать.

Архитектурно модель это преемник DeepSeek V2, но заметно больше - 671 миллиардов параметров, из которых 37 миллиардов активных (у меня есть пост о том как это работает). Теперь моделька может опционально предсказывать два токена за раз, что даёт 1.8x прирост в скорости. Устройство MoE слоя тоже слегка изменили - softmax в роутере заменили на сигмоид, а общий эксперт теперь всего один на слой. Практически убрали дополнительные лосс функции, которые нужны были для балансировки такого большого MoE, из-за чего увеличилась точность. Вот пейпер о том как это работает.

До 8 февраля стоимость будет такая же как у V2 ($0.14/$0.28), а после её планируют заметно повысить - до $0.27/$1.10 за миллион токенов. Цена за закэшированные токены на вход тоже вырастает - с $0.014 до $0.07 за миллион токенов, но само кэширование бесплатное и автоматическое, да и хранят кэш целые сутки (у OpenAI и Anthropic по 5-10 минут, у Google платится за час кэша). Позволить себе так играться с ценами они могут - ни один провайдер до сих пор не запустил инференс DeepSeek V2 за адекватные деньги, надеюсь сейчас ситуация с этим улучшится. Даже с таким повышением цен, модель будет очень дешёвая - в 10 раз дешевле Sonnet 3.5 и 4o.

Веса
Пейпер
Чат (со вчерашнего дня на DeepSeek V3)

@ai_newz



group-telegram.com/ai_newz/3585
Create:
Last Update:

DeepSeek V3 - новый опенсорс лидер

На общих бенчах тягается с Sonnet 3.5 и GPT-4o, уверенно оставляя Llama 405B позади. Но особенно хорошо моделька показывает себя в кодинге и математике, что не удивительно - модель дистиллировали из R1, конкурента o1 от DeepSeek. А вот по бенчам для агентов Claude всё ещё значительно лучше.

Ушло на тренировку всего 2.78 миллиона H800 часов, что очень мало - у Colossus, суперкомпьютера xAI, на тренировку такой модели даже сейчас уйдёт всего день, а ведь его хотят увеличить в 10 раз. Датасет 14.8 триллионах токенов. Не смотря на то что тренировали в fp8, тренировка была на удивление гладкая - им ни разу во время тренировки не пришлось ничего откатывать.

Архитектурно модель это преемник DeepSeek V2, но заметно больше - 671 миллиардов параметров, из которых 37 миллиардов активных (у меня есть пост о том как это работает). Теперь моделька может опционально предсказывать два токена за раз, что даёт 1.8x прирост в скорости. Устройство MoE слоя тоже слегка изменили - softmax в роутере заменили на сигмоид, а общий эксперт теперь всего один на слой. Практически убрали дополнительные лосс функции, которые нужны были для балансировки такого большого MoE, из-за чего увеличилась точность. Вот пейпер о том как это работает.

До 8 февраля стоимость будет такая же как у V2 ($0.14/$0.28), а после её планируют заметно повысить - до $0.27/$1.10 за миллион токенов. Цена за закэшированные токены на вход тоже вырастает - с $0.014 до $0.07 за миллион токенов, но само кэширование бесплатное и автоматическое, да и хранят кэш целые сутки (у OpenAI и Anthropic по 5-10 минут, у Google платится за час кэша). Позволить себе так играться с ценами они могут - ни один провайдер до сих пор не запустил инференс DeepSeek V2 за адекватные деньги, надеюсь сейчас ситуация с этим улучшится. Даже с таким повышением цен, модель будет очень дешёвая - в 10 раз дешевле Sonnet 3.5 и 4o.

Веса
Пейпер
Чат (со вчерашнего дня на DeepSeek V3)

@ai_newz

BY эйай ньюз





Share with your friend now:
group-telegram.com/ai_newz/3585

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts.
from ms


Telegram эйай ньюз
FROM American