Warning: file_put_contents(aCache/aDaily/post/anthropogenes/-42799-42800-): Failed to open stream: No space left on device in /var/www/group-telegram/post.php on line 50
НИИ Антропогенеза (ARI) | Telegram Webview: anthropogenes/42799 -
Telegram Group & Telegram Channel
Соцсети разносит график, на котором видно, что o3 превзошла уровень PhD

И не просто PhD (доктор наук), а PhD, которые отвечают на вопросы своей области с использованием к тому же Google

Бенчмарк – GPQA Diamond от Google

Это самый сложный существующий тест из семейства GPQA (Graduate-Level Q&A), в нем 198 очень сложных вопросов по биологии, физике и химии

Эти задачи многосоставные и требуют многошагового абстрактного мышления, так что даже эксперты обычно решают его на 65 %

При этом всем о3 все еще остается очень дорогой моделью, да еще и не слишком экологичной

Кто-то на форумах посчитал (расчеты кстати, интересные), что в high compute режиме на обслуживание одной таски о3 будет тратить около 684 кг. углекислого газа, что примерно равняется выбросам от пяти полностью заправленных баков автомобилей

Радует только то, что модели очень быстро дешевеют, отрицать это нельзя
Например, наверху еще один график, который показывает соотношение стоимости и перформанса на ARC AGI

Смотрите: o3-mini выбивает примерно также, как o1, но стоит при этом намноооого меньше
И тенденция (пока что) будет сохраняться



group-telegram.com/anthropogenes/42799
Create:
Last Update:

Соцсети разносит график, на котором видно, что o3 превзошла уровень PhD

И не просто PhD (доктор наук), а PhD, которые отвечают на вопросы своей области с использованием к тому же Google

Бенчмарк – GPQA Diamond от Google

Это самый сложный существующий тест из семейства GPQA (Graduate-Level Q&A), в нем 198 очень сложных вопросов по биологии, физике и химии

Эти задачи многосоставные и требуют многошагового абстрактного мышления, так что даже эксперты обычно решают его на 65 %

При этом всем о3 все еще остается очень дорогой моделью, да еще и не слишком экологичной

Кто-то на форумах посчитал (расчеты кстати, интересные), что в high compute режиме на обслуживание одной таски о3 будет тратить около 684 кг. углекислого газа, что примерно равняется выбросам от пяти полностью заправленных баков автомобилей

Радует только то, что модели очень быстро дешевеют, отрицать это нельзя
Например, наверху еще один график, который показывает соотношение стоимости и перформанса на ARC AGI

Смотрите: o3-mini выбивает примерно также, как o1, но стоит при этом намноооого меньше
И тенденция (пока что) будет сохраняться

BY НИИ Антропогенеза (ARI)





Share with your friend now:
group-telegram.com/anthropogenes/42799

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform.
from tr


Telegram НИИ Антропогенеза (ARI)
FROM American