Telegram Group & Telegram Channel
Соцсети разносит график, на котором видно, что o3 превзошла уровень PhD

И не просто PhD (доктор наук), а PhD, которые отвечают на вопросы своей области с использованием к тому же Google

Бенчмарк – GPQA Diamond от Google

Это самый сложный существующий тест из семейства GPQA (Graduate-Level Q&A), в нем 198 очень сложных вопросов по биологии, физике и химии

Эти задачи многосоставные и требуют многошагового абстрактного мышления, так что даже эксперты обычно решают его на 65 %

При этом всем о3 все еще остается очень дорогой моделью, да еще и не слишком экологичной

Кто-то на форумах посчитал (расчеты кстати, интересные), что в high compute режиме на обслуживание одной таски о3 будет тратить около 684 кг. углекислого газа, что примерно равняется выбросам от пяти полностью заправленных баков автомобилей

Радует только то, что модели очень быстро дешевеют, отрицать это нельзя
Например, наверху еще один график, который показывает соотношение стоимости и перформанса на ARC AGI

Смотрите: o3-mini выбивает примерно также, как o1, но стоит при этом намноооого меньше
И тенденция (пока что) будет сохраняться



group-telegram.com/anthropogenes/42799
Create:
Last Update:

Соцсети разносит график, на котором видно, что o3 превзошла уровень PhD

И не просто PhD (доктор наук), а PhD, которые отвечают на вопросы своей области с использованием к тому же Google

Бенчмарк – GPQA Diamond от Google

Это самый сложный существующий тест из семейства GPQA (Graduate-Level Q&A), в нем 198 очень сложных вопросов по биологии, физике и химии

Эти задачи многосоставные и требуют многошагового абстрактного мышления, так что даже эксперты обычно решают его на 65 %

При этом всем о3 все еще остается очень дорогой моделью, да еще и не слишком экологичной

Кто-то на форумах посчитал (расчеты кстати, интересные), что в high compute режиме на обслуживание одной таски о3 будет тратить около 684 кг. углекислого газа, что примерно равняется выбросам от пяти полностью заправленных баков автомобилей

Радует только то, что модели очень быстро дешевеют, отрицать это нельзя
Например, наверху еще один график, который показывает соотношение стоимости и перформанса на ARC AGI

Смотрите: o3-mini выбивает примерно также, как o1, но стоит при этом намноооого меньше
И тенденция (пока что) будет сохраняться

BY НИИ Антропогенеза (ARI)





Share with your friend now:
group-telegram.com/anthropogenes/42799

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine.
from ms


Telegram НИИ Антропогенеза (ARI)
FROM American