Notice: file_put_contents(): Write of 10148 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
эйай ньюз | Telegram Webview: ai_newz/3456 -
Telegram Group & Telegram Channel
На чатбот арене последние дни очень жарко 💃

Неделю назад Gemini-1114 заняла первое место на арене, обогнав все модели OpenAI. В среду OpenAI ответили более новой версией 4o, Artificial Analysis протестировали её, и выводы печальные - хоть рейтинг на арене и растёт, бенчи MATH и GPQA просели ниже результатов июльской 4o-mini. При этом, с просадкой по бенчам, более чем в два раза выросла скорость - с 80 до 180 токенов в секунду. Похоже, нам суют модель сильно поменьше за те же деньги.

Вот вам ещё одно напоминание, что теперь и арене верить решительно нельзя - несколько компаний уже несколько месяцев активно занимаются тюном под арену только чтобы повысить ELO. Живая демонстрация закона Гудхарта в действии: «Когда мера становится целью, она перестает быть хорошей мерой». Кстати, жёсткий тюн под арену не сильно помог OpenAI - новая 4o продержалась в топе всего лишь чуть больше суток. В четверг вечером первое место заняла уже Gemini-Exp-1121.

Под постом про набор интернов у меня спрашивали, чем лучше сейчас заняться в AI. Так вот, надеюсь, посмотрев на весь этот бардак с ареной, кто-то из подписчиков вдохновится темой оценки качества моделей и сможет предложить бенчи получше.

Вообще объективная автоматическая оценка качества генеративных моделей будь-то текстовых или картиночных и видео - задача важная, но все еще не решенная.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/3456
Create:
Last Update:

На чатбот арене последние дни очень жарко 💃

Неделю назад Gemini-1114 заняла первое место на арене, обогнав все модели OpenAI. В среду OpenAI ответили более новой версией 4o, Artificial Analysis протестировали её, и выводы печальные - хоть рейтинг на арене и растёт, бенчи MATH и GPQA просели ниже результатов июльской 4o-mini. При этом, с просадкой по бенчам, более чем в два раза выросла скорость - с 80 до 180 токенов в секунду. Похоже, нам суют модель сильно поменьше за те же деньги.

Вот вам ещё одно напоминание, что теперь и арене верить решительно нельзя - несколько компаний уже несколько месяцев активно занимаются тюном под арену только чтобы повысить ELO. Живая демонстрация закона Гудхарта в действии: «Когда мера становится целью, она перестает быть хорошей мерой». Кстати, жёсткий тюн под арену не сильно помог OpenAI - новая 4o продержалась в топе всего лишь чуть больше суток. В четверг вечером первое место заняла уже Gemini-Exp-1121.

Под постом про набор интернов у меня спрашивали, чем лучше сейчас заняться в AI. Так вот, надеюсь, посмотрев на весь этот бардак с ареной, кто-то из подписчиков вдохновится темой оценки качества моделей и сможет предложить бенчи получше.

Вообще объективная автоматическая оценка качества генеративных моделей будь-то текстовых или картиночных и видео - задача важная, но все еще не решенная.

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/3456

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. Founder Pavel Durov says tech is meant to set you free The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War."
from tr


Telegram эйай ньюз
FROM American