Notice: file_put_contents(): Write of 14578 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
Neurogen | Telegram Webview: neurogen_news/1019 -
Telegram Group & Telegram Channel
Forwarded from Сиолошная
Прошло полтора месяца с анонса o1 от OpenAI, и вот сегодня китайцы из DeepSeek удивляют первым конкурентом. Я бы не подумал, что среди компаний уровня Google - META - Anthropic - AliBaba именно они смогут первыми удивить релизом.

Они представили модель DeepSeek-R1-Lite-Preview, но к сожалению без деталей касательно обучения и сбора данных. Модель пока доступна в онлайн-чате, зато видны все рассуждения, а не только краткая выжимка — однако обещают, что и веса LLM-ки, и API для неё опубликуют скоро.

На первой картинке — результаты бенчмарков, на задачах с AIME модель обходит o1-preview (но полноценная o1, со слов OpenAI, выдаёт 74.4). На LiveCodeBench (задачи на LeetCode, добавленные с августа 2024-го, то есть «новые», хоть похожие на них наверняка были в интернете до этого) тоже прирост относительно других моделей очень ощутимый.

На второй картинке — результаты масштабирования процесса размышлений R1 (с точки зрения процента решённых на AIME задач):
— Pass — это результат модели, если делать одно предсказание на задачу и его сверять с ответом. В данном случае масштабируется длина единственной цепочки рассуждений, чем больше — тем выше качество
— Majority Voting это дополнительная техника для улучшения качества за счёт генерации нескольких независимых цепочек рассуждений с последующим выбором ответа через взятие самого часто встречающегося предсказания (грубо говоря голосование)

Обратите внимание на значения на горизонтальной оси, самые правые точки — результат аггрегации цепочек рассуждений общей длины более 100'000 токенов.

На третьей картинке я задал LLM-ке задачку с олимпиады 4-го класса, ответ правильный (решение не проверял, чат тут). Вы можете потестировать модель сами тут:

https://chat.deepseek.com/

Можно авторизоваться через Google аккаунт. Доступно 50 запросов в день.

🇨🇳 Китай вперёёёд 🇨🇳
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/neurogen_news/1019
Create:
Last Update:

Прошло полтора месяца с анонса o1 от OpenAI, и вот сегодня китайцы из DeepSeek удивляют первым конкурентом. Я бы не подумал, что среди компаний уровня Google - META - Anthropic - AliBaba именно они смогут первыми удивить релизом.

Они представили модель DeepSeek-R1-Lite-Preview, но к сожалению без деталей касательно обучения и сбора данных. Модель пока доступна в онлайн-чате, зато видны все рассуждения, а не только краткая выжимка — однако обещают, что и веса LLM-ки, и API для неё опубликуют скоро.

На первой картинке — результаты бенчмарков, на задачах с AIME модель обходит o1-preview (но полноценная o1, со слов OpenAI, выдаёт 74.4). На LiveCodeBench (задачи на LeetCode, добавленные с августа 2024-го, то есть «новые», хоть похожие на них наверняка были в интернете до этого) тоже прирост относительно других моделей очень ощутимый.

На второй картинке — результаты масштабирования процесса размышлений R1 (с точки зрения процента решённых на AIME задач):
— Pass — это результат модели, если делать одно предсказание на задачу и его сверять с ответом. В данном случае масштабируется длина единственной цепочки рассуждений, чем больше — тем выше качество
— Majority Voting это дополнительная техника для улучшения качества за счёт генерации нескольких независимых цепочек рассуждений с последующим выбором ответа через взятие самого часто встречающегося предсказания (грубо говоря голосование)

Обратите внимание на значения на горизонтальной оси, самые правые точки — результат аггрегации цепочек рассуждений общей длины более 100'000 токенов.

На третьей картинке я задал LLM-ке задачку с олимпиады 4-го класса, ответ правильный (решение не проверял, чат тут). Вы можете потестировать модель сами тут:

https://chat.deepseek.com/

Можно авторизоваться через Google аккаунт. Доступно 50 запросов в день.

🇨🇳 Китай вперёёёд 🇨🇳

BY Neurogen






Share with your friend now:
group-telegram.com/neurogen_news/1019

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. For tech stocks, “the main thing is yields,” Essaye said. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup.
from id


Telegram Neurogen
FROM American