group-telegram.com/seeallochnaya/1996
Last Update:
Помните я писал про ARC Benchmark (первый и второй пост), который нацелен на проверку абстрактного/пространственного визуального мышления?
Закончился конкурс, проводимый авторами, с фондом в $125'000. Как только начали фигурировать деньги — так сразу пошёл прогресс: до этого лучший результат был примерно 20% решённых загадок (и не использовал LLM). Сейчас же первое место закончило с результатом 55.5%, и это при том, что из-за технических проблем они не смогли отправить решение с 58% правильных ответов.
Пусть вас не смущает «маленькая» цифра — задачи-примеры на картинках это одни из самых простых, но есть и куда более сложные. Средний человек, согласно замерам вот тут (1729 человек!), набирает примерно 60.2%, если давать две попытки отправить ответ (и 47.8, если одну). В соревновании такой же формат, можно предложить два решения.
Однако в соревновании жесткие ограничения по ресурсам, которые хоть и выглядят разумно (12 часов на 100 задач с 1 GPU 8 летней давности), но всё же не позволяют развернуться на полную.
Кроме этого, с начала ноября вышло две крутых статьи с описанием методов, как можно ещё улучшить качество. Их разборы наверное будут в канале, но тем, кому не терпится, вот:
— Combining Induction and Transduction for Abstract Reasoning (генерируют огромное количество синтетических задач, используя GPT-4, и тренируют маленькую модель, которая решает задачи через написание python-кода)
— The Surprising Effectiveness of Test-Time Training for Abstract Reasoning (вот это вообще очень крутая идея, перед применением модели для конкретной задачи генерируется несколько схожих, используя модель из статьи выше, и на них дообучается LLM; обучение своё для каждой отдельной задачи. Достигают 61.9%, что выше среднего человеческого результата)
UPD: забыл написать, что предсказания автора бенчмарка полгода назад было, что по окончанию соревнования результат будет 50-56%. Так что немного опередили его ожидания!
BY Сиолошная
Share with your friend now:
group-telegram.com/seeallochnaya/1996