Telegram Group & Telegram Channel
Соцсети разносит график, на котором видно, что o3 превзошла уровень PhD

И не просто PhD (доктор наук), а PhD, которые отвечают на вопросы своей области с использованием к тому же Google

Бенчмарк – GPQA Diamond от Google

Это самый сложный существующий тест из семейства GPQA (Graduate-Level Q&A), в нем 198 очень сложных вопросов по биологии, физике и химии

Эти задачи многосоставные и требуют многошагового абстрактного мышления, так что даже эксперты обычно решают его на 65 %

При этом всем о3 все еще остается очень дорогой моделью, да еще и не слишком экологичной

Кто-то на форумах посчитал (расчеты кстати, интересные), что в high compute режиме на обслуживание одной таски о3 будет тратить около 684 кг. углекислого газа, что примерно равняется выбросам от пяти полностью заправленных баков автомобилей

Радует только то, что модели очень быстро дешевеют, отрицать это нельзя
Например, наверху еще один график, который показывает соотношение стоимости и перформанса на ARC AGI

Смотрите: o3-mini выбивает примерно также, как o1, но стоит при этом намноооого меньше
И тенденция (пока что) будет сохраняться



group-telegram.com/anthropogenes/42799
Create:
Last Update:

Соцсети разносит график, на котором видно, что o3 превзошла уровень PhD

И не просто PhD (доктор наук), а PhD, которые отвечают на вопросы своей области с использованием к тому же Google

Бенчмарк – GPQA Diamond от Google

Это самый сложный существующий тест из семейства GPQA (Graduate-Level Q&A), в нем 198 очень сложных вопросов по биологии, физике и химии

Эти задачи многосоставные и требуют многошагового абстрактного мышления, так что даже эксперты обычно решают его на 65 %

При этом всем о3 все еще остается очень дорогой моделью, да еще и не слишком экологичной

Кто-то на форумах посчитал (расчеты кстати, интересные), что в high compute режиме на обслуживание одной таски о3 будет тратить около 684 кг. углекислого газа, что примерно равняется выбросам от пяти полностью заправленных баков автомобилей

Радует только то, что модели очень быстро дешевеют, отрицать это нельзя
Например, наверху еще один график, который показывает соотношение стоимости и перформанса на ARC AGI

Смотрите: o3-mini выбивает примерно также, как o1, но стоит при этом намноооого меньше
И тенденция (пока что) будет сохраняться

BY НИИ Антропогенеза (ARI)





Share with your friend now:
group-telegram.com/anthropogenes/42799

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more.
from us


Telegram НИИ Антропогенеза (ARI)
FROM American