Telegram Group & Telegram Channel
Forwarded from Сиолошная
Прошло полтора месяца с анонса o1 от OpenAI, и вот сегодня китайцы из DeepSeek удивляют первым конкурентом. Я бы не подумал, что среди компаний уровня Google - META - Anthropic - AliBaba именно они смогут первыми удивить релизом.

Они представили модель DeepSeek-R1-Lite-Preview, но к сожалению без деталей касательно обучения и сбора данных. Модель пока доступна в онлайн-чате, зато видны все рассуждения, а не только краткая выжимка — однако обещают, что и веса LLM-ки, и API для неё опубликуют скоро.

На первой картинке — результаты бенчмарков, на задачах с AIME модель обходит o1-preview (но полноценная o1, со слов OpenAI, выдаёт 74.4). На LiveCodeBench (задачи на LeetCode, добавленные с августа 2024-го, то есть «новые», хоть похожие на них наверняка были в интернете до этого) тоже прирост относительно других моделей очень ощутимый.

На второй картинке — результаты масштабирования процесса размышлений R1 (с точки зрения процента решённых на AIME задач):
— Pass — это результат модели, если делать одно предсказание на задачу и его сверять с ответом. В данном случае масштабируется длина единственной цепочки рассуждений, чем больше — тем выше качество
— Majority Voting это дополнительная техника для улучшения качества за счёт генерации нескольких независимых цепочек рассуждений с последующим выбором ответа через взятие самого часто встречающегося предсказания (грубо говоря голосование)

Обратите внимание на значения на горизонтальной оси, самые правые точки — результат аггрегации цепочек рассуждений общей длины более 100'000 токенов.

На третьей картинке я задал LLM-ке задачку с олимпиады 4-го класса, ответ правильный (решение не проверял, чат тут). Вы можете потестировать модель сами тут:

https://chat.deepseek.com/

Можно авторизоваться через Google аккаунт. Доступно 50 запросов в день.

🇨🇳 Китай вперёёёд 🇨🇳
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/neurogen_news/1019
Create:
Last Update:

Прошло полтора месяца с анонса o1 от OpenAI, и вот сегодня китайцы из DeepSeek удивляют первым конкурентом. Я бы не подумал, что среди компаний уровня Google - META - Anthropic - AliBaba именно они смогут первыми удивить релизом.

Они представили модель DeepSeek-R1-Lite-Preview, но к сожалению без деталей касательно обучения и сбора данных. Модель пока доступна в онлайн-чате, зато видны все рассуждения, а не только краткая выжимка — однако обещают, что и веса LLM-ки, и API для неё опубликуют скоро.

На первой картинке — результаты бенчмарков, на задачах с AIME модель обходит o1-preview (но полноценная o1, со слов OpenAI, выдаёт 74.4). На LiveCodeBench (задачи на LeetCode, добавленные с августа 2024-го, то есть «новые», хоть похожие на них наверняка были в интернете до этого) тоже прирост относительно других моделей очень ощутимый.

На второй картинке — результаты масштабирования процесса размышлений R1 (с точки зрения процента решённых на AIME задач):
— Pass — это результат модели, если делать одно предсказание на задачу и его сверять с ответом. В данном случае масштабируется длина единственной цепочки рассуждений, чем больше — тем выше качество
— Majority Voting это дополнительная техника для улучшения качества за счёт генерации нескольких независимых цепочек рассуждений с последующим выбором ответа через взятие самого часто встречающегося предсказания (грубо говоря голосование)

Обратите внимание на значения на горизонтальной оси, самые правые точки — результат аггрегации цепочек рассуждений общей длины более 100'000 токенов.

На третьей картинке я задал LLM-ке задачку с олимпиады 4-го класса, ответ правильный (решение не проверял, чат тут). Вы можете потестировать модель сами тут:

https://chat.deepseek.com/

Можно авторизоваться через Google аккаунт. Доступно 50 запросов в день.

🇨🇳 Китай вперёёёд 🇨🇳

BY Neurogen






Share with your friend now:
group-telegram.com/neurogen_news/1019

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children.
from us


Telegram Neurogen
FROM American