Telegram Group & Telegram Channel
более подробно о тесте o3 на ARC-AGI

o3 — новая ИИ-система, которая продемонстрировала способность адаптироваться к новым задачам, значительно превышая возможности предыдущих моделей GPT.

Результаты:
На Semi-Private Evaluation (100 задач) o3 набрал:
75.7% при ограниченном бюджете вычислений ($10k).
87.5% с высоким уровнем вычислений (172x больше).
На Public Evaluation (400 задач) результаты составили 82.8% (ограниченный бюджет) и 91.5% (высокий уровень вычислений).

Прорыв:
Это первый случай, когда ИИ достиг такого уровня обобщения, что сравним с человеческим.
Для сравнения, GPT-4o ранее набирал только 5% на аналогичных тестах.

Особенности o3:
Применяет новый подход, основанный на поиске и выполнении программ в текстовой форме для решения задач.
Способен комбинировать знания и адаптироваться к новизне, что ранее было невозможно для моделей GPT.

Вызовы:
Затраты на решение одной задачи (в низкоэффективном режиме) всё ещё выше человеческих (~$17-20 против $5 у человека).
Несмотря на высокую производительность, система всё ещё далека от уровня AGI (общего искусственного интеллекта).

Будущее:
В 2025 году планируется запуск нового теста ARC-AGI-2 для повышения сложности и продолжения исследований.
OpenAI планирует делать эти технологии более доступными и эффективными.

Вывод: OpenAI o3 — это качественный скачок в ИИ, демонстрирующий адаптивность и способность решать принципиально новые задачи. Это пока не AGI, модель всё ещё может совершать ошибки на совершенно простых задачах.



group-telegram.com/Futuris/2998
Create:
Last Update:

более подробно о тесте o3 на ARC-AGI

o3 — новая ИИ-система, которая продемонстрировала способность адаптироваться к новым задачам, значительно превышая возможности предыдущих моделей GPT.

Результаты:
На Semi-Private Evaluation (100 задач) o3 набрал:
75.7% при ограниченном бюджете вычислений ($10k).
87.5% с высоким уровнем вычислений (172x больше).
На Public Evaluation (400 задач) результаты составили 82.8% (ограниченный бюджет) и 91.5% (высокий уровень вычислений).

Прорыв:
Это первый случай, когда ИИ достиг такого уровня обобщения, что сравним с человеческим.
Для сравнения, GPT-4o ранее набирал только 5% на аналогичных тестах.

Особенности o3:
Применяет новый подход, основанный на поиске и выполнении программ в текстовой форме для решения задач.
Способен комбинировать знания и адаптироваться к новизне, что ранее было невозможно для моделей GPT.

Вызовы:
Затраты на решение одной задачи (в низкоэффективном режиме) всё ещё выше человеческих (~$17-20 против $5 у человека).
Несмотря на высокую производительность, система всё ещё далека от уровня AGI (общего искусственного интеллекта).

Будущее:
В 2025 году планируется запуск нового теста ARC-AGI-2 для повышения сложности и продолжения исследований.
OpenAI планирует делать эти технологии более доступными и эффективными.

Вывод: OpenAI o3 — это качественный скачок в ИИ, демонстрирующий адаптивность и способность решать принципиально новые задачи. Это пока не AGI, модель всё ещё может совершать ошибки на совершенно простых задачах.

BY Futuris




Share with your friend now:
group-telegram.com/Futuris/2998

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into."
from tw


Telegram Futuris
FROM American