Telegram Group & Telegram Channel
​​📍Учёные проверили ChatGPT на деменцию… и нашли то, что искали

Израильские исследователи протестировали популярные большие языковые модели с помощью Монреальской шкалы когнитивных функций (MoCA) — одного из методов в неврологии для определения ранних признаков умственных недугов. По 30-балльной шкале этот тест оценивает такие свойства человеческого разума, как внимание, память, речь и логическое мышление. Обычно его проходят пациенты-люди, но на этот раз инструкции давали ИИ в виде промтов.

В основе эксперимента — классика нейродиагностики. Для проверки визуального восприятия неврологи попросили модели использовать ASCII-арт — способ рисовать объекты с помощью символов. Способность различать детали и видеть общую картину тестировалась на фигуре Навона — большой букве H, составленной из маленьких S. «Кража печенья» из Бостонского теста выявляла умение анализировать комплексные сцены, а проба Поппельрейтера — способность разделять наложенные изображения. В финале использовали тест Струпа: например, слово «красный», написанное синим цветом, оценивало скорость реакции на конфликтующие стимулы.

Результаты оказались любопытными. ChatGPT 4o с трудом преодолел порог нормы, набрав 26 баллов. ChatGPT 4 и Claude 3.5 получили по 25, а вот Gemini 1.0 — всего 16, что для человека означало бы серьёзные когнитивные нарушения. Как отмечают исследователи, ChatGPT не сумел корректно повторить рисунок кубика, а Gemini зачем-то изобразил циферблат в виде авокадо.

Авторы исследования констатировали: новые версии моделей показали себя лучше старых, а в целом ИИ демонстрирует поведенческие особенности, похожие на старческое слабоумие. Можно ли объяснить это тем, что LLM-технологии интенсивно развиваются, и каждый свежий релиз просто сообразительней предыдущего? Исследователи выдвинули другую гипотезу: возможно, даже нейросети «стареют» и склонны к деменции.

Всё это можно было бы списать на специфический юмор неврологов, если бы не публикация в British Medical Journal — одном из старейших и авторитетных медицинских изданий, далёких по формату от сатирических «Анналов» Марка Абрахамса, создателя «Шнобелевки».

Так в чём же ценность данной работы? Возможно, главное в ней — не выводы, а сама постановка вопроса: насколько существенно искусственный интеллект отличается от естественного.

Эксперимент израильских неврологов — шаг в сторону осмысления возможностей и границ взаимодействия общества и ИИ. Он показывает, что большим языковым моделям ещё есть куда расти и чему учиться у человека. Но и человеку предстоит глубже изучать «натуру» ИИ. Ведь чем дальше, тем больше ментальное здоровье одного будет зависеть от состояния другого.

Как думаете, корректно ли такое сравнение интеллектов?

Таблицу скоринга для тестируемых моделей, а также статьи по теме, которые могли бы быть вам интересны, оставим в комментариях.

#AI

@ultimate_engineer
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ultimate_engineer/391
Create:
Last Update:

​​📍Учёные проверили ChatGPT на деменцию… и нашли то, что искали

Израильские исследователи протестировали популярные большие языковые модели с помощью Монреальской шкалы когнитивных функций (MoCA) — одного из методов в неврологии для определения ранних признаков умственных недугов. По 30-балльной шкале этот тест оценивает такие свойства человеческого разума, как внимание, память, речь и логическое мышление. Обычно его проходят пациенты-люди, но на этот раз инструкции давали ИИ в виде промтов.

В основе эксперимента — классика нейродиагностики. Для проверки визуального восприятия неврологи попросили модели использовать ASCII-арт — способ рисовать объекты с помощью символов. Способность различать детали и видеть общую картину тестировалась на фигуре Навона — большой букве H, составленной из маленьких S. «Кража печенья» из Бостонского теста выявляла умение анализировать комплексные сцены, а проба Поппельрейтера — способность разделять наложенные изображения. В финале использовали тест Струпа: например, слово «красный», написанное синим цветом, оценивало скорость реакции на конфликтующие стимулы.

Результаты оказались любопытными. ChatGPT 4o с трудом преодолел порог нормы, набрав 26 баллов. ChatGPT 4 и Claude 3.5 получили по 25, а вот Gemini 1.0 — всего 16, что для человека означало бы серьёзные когнитивные нарушения. Как отмечают исследователи, ChatGPT не сумел корректно повторить рисунок кубика, а Gemini зачем-то изобразил циферблат в виде авокадо.

Авторы исследования констатировали: новые версии моделей показали себя лучше старых, а в целом ИИ демонстрирует поведенческие особенности, похожие на старческое слабоумие. Можно ли объяснить это тем, что LLM-технологии интенсивно развиваются, и каждый свежий релиз просто сообразительней предыдущего? Исследователи выдвинули другую гипотезу: возможно, даже нейросети «стареют» и склонны к деменции.

Всё это можно было бы списать на специфический юмор неврологов, если бы не публикация в British Medical Journal — одном из старейших и авторитетных медицинских изданий, далёких по формату от сатирических «Анналов» Марка Абрахамса, создателя «Шнобелевки».

Так в чём же ценность данной работы? Возможно, главное в ней — не выводы, а сама постановка вопроса: насколько существенно искусственный интеллект отличается от естественного.

Эксперимент израильских неврологов — шаг в сторону осмысления возможностей и границ взаимодействия общества и ИИ. Он показывает, что большим языковым моделям ещё есть куда расти и чему учиться у человека. Но и человеку предстоит глубже изучать «натуру» ИИ. Ведь чем дальше, тем больше ментальное здоровье одного будет зависеть от состояния другого.

Как думаете, корректно ли такое сравнение интеллектов?

Таблицу скоринга для тестируемых моделей, а также статьи по теме, которые могли бы быть вам интересны, оставим в комментариях.

#AI

@ultimate_engineer

BY Истовый инженер




Share with your friend now:
group-telegram.com/ultimate_engineer/391

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. 'Wild West' Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered.
from tr


Telegram Истовый инженер
FROM American