Telegram Group & Telegram Channel
​​📍Учёные проверили ChatGPT на деменцию… и нашли то, что искали

Израильские исследователи протестировали популярные большие языковые модели с помощью Монреальской шкалы когнитивных функций (MoCA) — одного из методов в неврологии для определения ранних признаков умственных недугов. По 30-балльной шкале этот тест оценивает такие свойства человеческого разума, как внимание, память, речь и логическое мышление. Обычно его проходят пациенты-люди, но на этот раз инструкции давали ИИ в виде промтов.

В основе эксперимента — классика нейродиагностики. Для проверки визуального восприятия неврологи попросили модели использовать ASCII-арт — способ рисовать объекты с помощью символов. Способность различать детали и видеть общую картину тестировалась на фигуре Навона — большой букве H, составленной из маленьких S. «Кража печенья» из Бостонского теста выявляла умение анализировать комплексные сцены, а проба Поппельрейтера — способность разделять наложенные изображения. В финале использовали тест Струпа: например, слово «красный», написанное синим цветом, оценивало скорость реакции на конфликтующие стимулы.

Результаты оказались любопытными. ChatGPT 4o с трудом преодолел порог нормы, набрав 26 баллов. ChatGPT 4 и Claude 3.5 получили по 25, а вот Gemini 1.0 — всего 16, что для человека означало бы серьёзные когнитивные нарушения. Как отмечают исследователи, ChatGPT не сумел корректно повторить рисунок кубика, а Gemini зачем-то изобразил циферблат в виде авокадо.

Авторы исследования констатировали: новые версии моделей показали себя лучше старых, а в целом ИИ демонстрирует поведенческие особенности, похожие на старческое слабоумие. Можно ли объяснить это тем, что LLM-технологии интенсивно развиваются, и каждый свежий релиз просто сообразительней предыдущего? Исследователи выдвинули другую гипотезу: возможно, даже нейросети «стареют» и склонны к деменции.

Всё это можно было бы списать на специфический юмор неврологов, если бы не публикация в British Medical Journal — одном из старейших и авторитетных медицинских изданий, далёких по формату от сатирических «Анналов» Марка Абрахамса, создателя «Шнобелевки».

Так в чём же ценность данной работы? Возможно, главное в ней — не выводы, а сама постановка вопроса: насколько существенно искусственный интеллект отличается от естественного.

Эксперимент израильских неврологов — шаг в сторону осмысления возможностей и границ взаимодействия общества и ИИ. Он показывает, что большим языковым моделям ещё есть куда расти и чему учиться у человека. Но и человеку предстоит глубже изучать «натуру» ИИ. Ведь чем дальше, тем больше ментальное здоровье одного будет зависеть от состояния другого.

Как думаете, корректно ли такое сравнение интеллектов?

Таблицу скоринга для тестируемых моделей, а также статьи по теме, которые могли бы быть вам интересны, оставим в комментариях.

#AI

@ultimate_engineer
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ultimate_engineer/391
Create:
Last Update:

​​📍Учёные проверили ChatGPT на деменцию… и нашли то, что искали

Израильские исследователи протестировали популярные большие языковые модели с помощью Монреальской шкалы когнитивных функций (MoCA) — одного из методов в неврологии для определения ранних признаков умственных недугов. По 30-балльной шкале этот тест оценивает такие свойства человеческого разума, как внимание, память, речь и логическое мышление. Обычно его проходят пациенты-люди, но на этот раз инструкции давали ИИ в виде промтов.

В основе эксперимента — классика нейродиагностики. Для проверки визуального восприятия неврологи попросили модели использовать ASCII-арт — способ рисовать объекты с помощью символов. Способность различать детали и видеть общую картину тестировалась на фигуре Навона — большой букве H, составленной из маленьких S. «Кража печенья» из Бостонского теста выявляла умение анализировать комплексные сцены, а проба Поппельрейтера — способность разделять наложенные изображения. В финале использовали тест Струпа: например, слово «красный», написанное синим цветом, оценивало скорость реакции на конфликтующие стимулы.

Результаты оказались любопытными. ChatGPT 4o с трудом преодолел порог нормы, набрав 26 баллов. ChatGPT 4 и Claude 3.5 получили по 25, а вот Gemini 1.0 — всего 16, что для человека означало бы серьёзные когнитивные нарушения. Как отмечают исследователи, ChatGPT не сумел корректно повторить рисунок кубика, а Gemini зачем-то изобразил циферблат в виде авокадо.

Авторы исследования констатировали: новые версии моделей показали себя лучше старых, а в целом ИИ демонстрирует поведенческие особенности, похожие на старческое слабоумие. Можно ли объяснить это тем, что LLM-технологии интенсивно развиваются, и каждый свежий релиз просто сообразительней предыдущего? Исследователи выдвинули другую гипотезу: возможно, даже нейросети «стареют» и склонны к деменции.

Всё это можно было бы списать на специфический юмор неврологов, если бы не публикация в British Medical Journal — одном из старейших и авторитетных медицинских изданий, далёких по формату от сатирических «Анналов» Марка Абрахамса, создателя «Шнобелевки».

Так в чём же ценность данной работы? Возможно, главное в ней — не выводы, а сама постановка вопроса: насколько существенно искусственный интеллект отличается от естественного.

Эксперимент израильских неврологов — шаг в сторону осмысления возможностей и границ взаимодействия общества и ИИ. Он показывает, что большим языковым моделям ещё есть куда расти и чему учиться у человека. Но и человеку предстоит глубже изучать «натуру» ИИ. Ведь чем дальше, тем больше ментальное здоровье одного будет зависеть от состояния другого.

Как думаете, корректно ли такое сравнение интеллектов?

Таблицу скоринга для тестируемых моделей, а также статьи по теме, которые могли бы быть вам интересны, оставим в комментариях.

#AI

@ultimate_engineer

BY Истовый инженер




Share with your friend now:
group-telegram.com/ultimate_engineer/391

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts.
from no


Telegram Истовый инженер
FROM American