Telegram Group & Telegram Channel
​​📍Учёные проверили ChatGPT на деменцию… и нашли то, что искали

Израильские исследователи протестировали популярные большие языковые модели с помощью Монреальской шкалы когнитивных функций (MoCA) — одного из методов в неврологии для определения ранних признаков умственных недугов. По 30-балльной шкале этот тест оценивает такие свойства человеческого разума, как внимание, память, речь и логическое мышление. Обычно его проходят пациенты-люди, но на этот раз инструкции давали ИИ в виде промтов.

В основе эксперимента — классика нейродиагностики. Для проверки визуального восприятия неврологи попросили модели использовать ASCII-арт — способ рисовать объекты с помощью символов. Способность различать детали и видеть общую картину тестировалась на фигуре Навона — большой букве H, составленной из маленьких S. «Кража печенья» из Бостонского теста выявляла умение анализировать комплексные сцены, а проба Поппельрейтера — способность разделять наложенные изображения. В финале использовали тест Струпа: например, слово «красный», написанное синим цветом, оценивало скорость реакции на конфликтующие стимулы.

Результаты оказались любопытными. ChatGPT 4o с трудом преодолел порог нормы, набрав 26 баллов. ChatGPT 4 и Claude 3.5 получили по 25, а вот Gemini 1.0 — всего 16, что для человека означало бы серьёзные когнитивные нарушения. Как отмечают исследователи, ChatGPT не сумел корректно повторить рисунок кубика, а Gemini зачем-то изобразил циферблат в виде авокадо.

Авторы исследования констатировали: новые версии моделей показали себя лучше старых, а в целом ИИ демонстрирует поведенческие особенности, похожие на старческое слабоумие. Можно ли объяснить это тем, что LLM-технологии интенсивно развиваются, и каждый свежий релиз просто сообразительней предыдущего? Исследователи выдвинули другую гипотезу: возможно, даже нейросети «стареют» и склонны к деменции.

Всё это можно было бы списать на специфический юмор неврологов, если бы не публикация в British Medical Journal — одном из старейших и авторитетных медицинских изданий, далёких по формату от сатирических «Анналов» Марка Абрахамса, создателя «Шнобелевки».

Так в чём же ценность данной работы? Возможно, главное в ней — не выводы, а сама постановка вопроса: насколько существенно искусственный интеллект отличается от естественного.

Эксперимент израильских неврологов — шаг в сторону осмысления возможностей и границ взаимодействия общества и ИИ. Он показывает, что большим языковым моделям ещё есть куда расти и чему учиться у человека. Но и человеку предстоит глубже изучать «натуру» ИИ. Ведь чем дальше, тем больше ментальное здоровье одного будет зависеть от состояния другого.

Как думаете, корректно ли такое сравнение интеллектов?

Таблицу скоринга для тестируемых моделей, а также статьи по теме, которые могли бы быть вам интересны, оставим в комментариях.

#AI

@ultimate_engineer
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ultimate_engineer/391
Create:
Last Update:

​​📍Учёные проверили ChatGPT на деменцию… и нашли то, что искали

Израильские исследователи протестировали популярные большие языковые модели с помощью Монреальской шкалы когнитивных функций (MoCA) — одного из методов в неврологии для определения ранних признаков умственных недугов. По 30-балльной шкале этот тест оценивает такие свойства человеческого разума, как внимание, память, речь и логическое мышление. Обычно его проходят пациенты-люди, но на этот раз инструкции давали ИИ в виде промтов.

В основе эксперимента — классика нейродиагностики. Для проверки визуального восприятия неврологи попросили модели использовать ASCII-арт — способ рисовать объекты с помощью символов. Способность различать детали и видеть общую картину тестировалась на фигуре Навона — большой букве H, составленной из маленьких S. «Кража печенья» из Бостонского теста выявляла умение анализировать комплексные сцены, а проба Поппельрейтера — способность разделять наложенные изображения. В финале использовали тест Струпа: например, слово «красный», написанное синим цветом, оценивало скорость реакции на конфликтующие стимулы.

Результаты оказались любопытными. ChatGPT 4o с трудом преодолел порог нормы, набрав 26 баллов. ChatGPT 4 и Claude 3.5 получили по 25, а вот Gemini 1.0 — всего 16, что для человека означало бы серьёзные когнитивные нарушения. Как отмечают исследователи, ChatGPT не сумел корректно повторить рисунок кубика, а Gemini зачем-то изобразил циферблат в виде авокадо.

Авторы исследования констатировали: новые версии моделей показали себя лучше старых, а в целом ИИ демонстрирует поведенческие особенности, похожие на старческое слабоумие. Можно ли объяснить это тем, что LLM-технологии интенсивно развиваются, и каждый свежий релиз просто сообразительней предыдущего? Исследователи выдвинули другую гипотезу: возможно, даже нейросети «стареют» и склонны к деменции.

Всё это можно было бы списать на специфический юмор неврологов, если бы не публикация в British Medical Journal — одном из старейших и авторитетных медицинских изданий, далёких по формату от сатирических «Анналов» Марка Абрахамса, создателя «Шнобелевки».

Так в чём же ценность данной работы? Возможно, главное в ней — не выводы, а сама постановка вопроса: насколько существенно искусственный интеллект отличается от естественного.

Эксперимент израильских неврологов — шаг в сторону осмысления возможностей и границ взаимодействия общества и ИИ. Он показывает, что большим языковым моделям ещё есть куда расти и чему учиться у человека. Но и человеку предстоит глубже изучать «натуру» ИИ. Ведь чем дальше, тем больше ментальное здоровье одного будет зависеть от состояния другого.

Как думаете, корректно ли такое сравнение интеллектов?

Таблицу скоринга для тестируемых моделей, а также статьи по теме, которые могли бы быть вам интересны, оставим в комментариях.

#AI

@ultimate_engineer

BY Истовый инженер




Share with your friend now:
group-telegram.com/ultimate_engineer/391

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users.
from ca


Telegram Истовый инженер
FROM American