Telegram Group & Telegram Channel
⚡️ Финальный день стримов: OpenAI анонсируют o3!

Это новая самая мощная модель рассуждений стартапа. Правда она будет еще некоторое время недоступна. На стриме показали только демо и предварительные метрики, но они поражают.

o3 почти в два раза мощнее o1 на кодинге. На математике прирост тоже заметный: на 13 процентных пунктов на AIME 2024 и почти на 10 на GPQA. А на новом бенчмарке Frontier Math моделька выбивает 25% (до этого модели выбивали максимум 2)!

И еще: помните бенчмарк ARC AGI от Google, на котором разыгрывали в этом году миллион долларов (пост)? На нем самые затюненые модели выбивали около 50%. А o3 выбивает, приготовьтесь, почти 88!

Кроме o3, выпускают еще o3-mini (но она пока тоже недоступна). По классике, дешевле и быстрее, но менее мощно. Ее результат на ARC AGI – 75,7 (и даже это просто невероятно).

Обе модели, также, как и o1, имеют несколько режимов рассуждений (low, medium, high). Чем дольше думает – тем лучше метрики.

Еще хвастаются своим alignment'ом: мол, нашли лучший на сегодняшний день баланс между пугливостью модели и ее безопасностью и этичностью. Также в этот раз есть возможность подать заявку на ранний доступ для тестирования безопасности. На всех раскатят в январе.

Ну а теперь AGI?
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_secrets/5779
Create:
Last Update:

⚡️ Финальный день стримов: OpenAI анонсируют o3!

Это новая самая мощная модель рассуждений стартапа. Правда она будет еще некоторое время недоступна. На стриме показали только демо и предварительные метрики, но они поражают.

o3 почти в два раза мощнее o1 на кодинге. На математике прирост тоже заметный: на 13 процентных пунктов на AIME 2024 и почти на 10 на GPQA. А на новом бенчмарке Frontier Math моделька выбивает 25% (до этого модели выбивали максимум 2)!

И еще: помните бенчмарк ARC AGI от Google, на котором разыгрывали в этом году миллион долларов (пост)? На нем самые затюненые модели выбивали около 50%. А o3 выбивает, приготовьтесь, почти 88!

Кроме o3, выпускают еще o3-mini (но она пока тоже недоступна). По классике, дешевле и быстрее, но менее мощно. Ее результат на ARC AGI – 75,7 (и даже это просто невероятно).

Обе модели, также, как и o1, имеют несколько режимов рассуждений (low, medium, high). Чем дольше думает – тем лучше метрики.

Еще хвастаются своим alignment'ом: мол, нашли лучший на сегодняшний день баланс между пугливостью модели и ее безопасностью и этичностью. Также в этот раз есть возможность подать заявку на ранний доступ для тестирования безопасности. На всех раскатят в январе.

Ну а теперь AGI?

BY Data Secrets




Share with your friend now:
group-telegram.com/data_secrets/5779

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. False news often spreads via public groups, or chats, with potentially fatal effects. Despite Telegram's origins, its approach to users' security has privacy advocates worried. A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice.
from pl


Telegram Data Secrets
FROM American