group-telegram.com/Futuris/2898
Last Update:
Тут для современных моделек представили новый математический бенчмарк Frontier Math, который включает задачи, на решение которых у профессионалов уходит несколько дней. Современные модели справляются менее чем с 2% задач, несмотря на доступ к Python и большому количеству токенов. Для создания задач привлекли более 60 математиков, включая обладателей 14 золотых медалей IMO и одной Филдсовской премии.
Задачи оригинальны и требуют значительной работы, чтобы ответ не был угадан случайно. Подготовка к новым моделям идёт полным ходом, интересно будет пообщаться с ИИ (AGI) который рвёт этот бенчмарк в клочья (и почувствовать себя умственно отсталым🌚)
Я вообще тут подумал, что в какой-то момент выход каждой новой модели ИИ в массы будет больше пугать, чем восхищать, будем ещё топить за замедление темпа🫥
BY Futuris

Share with your friend now:
group-telegram.com/Futuris/2898