Telegram Group & Telegram Channel
Соцсети разносит график, на котором видно, что o3 превзошла уровень PhD

И не просто PhD (доктор наук), а PhD, которые отвечают на вопросы своей области с использованием к тому же Google

Бенчмарк – GPQA Diamond от Google

Это самый сложный существующий тест из семейства GPQA (Graduate-Level Q&A), в нем 198 очень сложных вопросов по биологии, физике и химии

Эти задачи многосоставные и требуют многошагового абстрактного мышления, так что даже эксперты обычно решают его на 65 %

При этом всем о3 все еще остается очень дорогой моделью, да еще и не слишком экологичной

Кто-то на форумах посчитал (расчеты кстати, интересные), что в high compute режиме на обслуживание одной таски о3 будет тратить около 684 кг. углекислого газа, что примерно равняется выбросам от пяти полностью заправленных баков автомобилей

Радует только то, что модели очень быстро дешевеют, отрицать это нельзя
Например, наверху еще один график, который показывает соотношение стоимости и перформанса на ARC AGI

Смотрите: o3-mini выбивает примерно также, как o1, но стоит при этом намноооого меньше
И тенденция (пока что) будет сохраняться



group-telegram.com/anthropogenes/42799
Create:
Last Update:

Соцсети разносит график, на котором видно, что o3 превзошла уровень PhD

И не просто PhD (доктор наук), а PhD, которые отвечают на вопросы своей области с использованием к тому же Google

Бенчмарк – GPQA Diamond от Google

Это самый сложный существующий тест из семейства GPQA (Graduate-Level Q&A), в нем 198 очень сложных вопросов по биологии, физике и химии

Эти задачи многосоставные и требуют многошагового абстрактного мышления, так что даже эксперты обычно решают его на 65 %

При этом всем о3 все еще остается очень дорогой моделью, да еще и не слишком экологичной

Кто-то на форумах посчитал (расчеты кстати, интересные), что в high compute режиме на обслуживание одной таски о3 будет тратить около 684 кг. углекислого газа, что примерно равняется выбросам от пяти полностью заправленных баков автомобилей

Радует только то, что модели очень быстро дешевеют, отрицать это нельзя
Например, наверху еще один график, который показывает соотношение стоимости и перформанса на ARC AGI

Смотрите: o3-mini выбивает примерно также, как o1, но стоит при этом намноооого меньше
И тенденция (пока что) будет сохраняться

BY НИИ Антропогенеза (ARI)





Share with your friend now:
group-telegram.com/anthropogenes/42799

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons.
from no


Telegram НИИ Антропогенеза (ARI)
FROM American