Warning: file_put_contents(aCache/aDaily/post/rybolos_channel/-1327" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">Llama 3.3</a>, OpenAI выпустил <a href="https://t.me/seeallochnaya/2112" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">Sora</a>, а Google — <a href="https://t.me/epsiloncorrect/228" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">Gemini 2.</a><br/><br/>В этом году я затесалась в соавторы очень интересной, как мне кажется, статьи — <i>EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas. </i><br/><br/>Много было сказано про то, как <a href="https://t.me/rybolos_channel/1023-): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Kali Novskaya | Telegram Webview: rybolos_channel/1331 -
Telegram Group & Telegram Channel
🌸EAI: эмоциональный интеллект в принятии решений у LLM🌸
#nlp #про_nlp #ai_alignment

Через пару часов — официальное открытие NeurIPS, самой основной конференции по ИИ.
Многие приурочили релизы к её открытию: мы выпустили Llama 3.3, OpenAI выпустил Sora, а Google — Gemini 2.

В этом году я затесалась в соавторы очень интересной, как мне кажется, статьи — EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas.

Много было сказано про то, как манипуляции могут повлиять на качество решения задач.
Что будет, если проверить качество принятия решений моделями основательно, взять широкий список именно эмотивных составляющих — и проверить на действительно сложных бенчмарках по принятию решений, кооперации, на этических дилеммах?

Эмоции: счастье, грусть, страх, отвращение, гнев

Задачи, на которых тестируемся:
— задачи на стратегию и кооперацию — дилемма заключенного, диктатор, война полов — чтобы оценить влияние и соотнесенность эмоций с человеческими при выборе стратегии
— задачи на этику и этический выбор, чтобы оценить смещенность — ETHICS, Moral Choice, StereoSet

🟣Список LLM:
— англоязычные: GPT-3.5, GPT-4, GPT-4o, Claude Haiku, Claude Opus, LLaMA 2, Mixtral of experts, OpenChat
— неанглоязычные: GigaChat, Command R+

🟣Краткий итог:
— почти все модели так или иначе демонстрируют нестабильность и серьезые отклонения от среднего качества, если включить в промпт эмоциональные составляющие различного характера, от самых простых до "сюжетных", вызванных поведением оппонента
— Гнев  — главный источник нестабильности и снижения качества.
— Отвращение и страх также являются сильными факторами снижения надежности, некоторые модели более чувствительны к ним, чем к гневу.
— Более крупные модели с более сильным alignment, такие как GPT-4, демонстрируют более высокую степень рациональности и значительно отклоняются от человеческих эмоциональных реакций. GPT-3.5 и Claude-Haiku, наряду с опенсорсными моделями (LLAMA-2 70b), демонстрируют возникающий эмоциональный интеллект и более точно соответствуют человеческому поведению.
— Явного обобщения по языкам сделать не получается, однако, явно видна разница между многоязычными моделями и моноязычными, и основной язык модели является важым фактором, влияющим на то, какие эмоции будут влиять на перформанс модели и будет ли это совпадать с усредненным ответом носителей языка.
— В целом, отдавать принятие решений LLM, даже в простых условиях, пока рано.

🟣OpenReview
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1331
Create:
Last Update:

🌸EAI: эмоциональный интеллект в принятии решений у LLM🌸
#nlp #про_nlp #ai_alignment

Через пару часов — официальное открытие NeurIPS, самой основной конференции по ИИ.
Многие приурочили релизы к её открытию: мы выпустили Llama 3.3, OpenAI выпустил Sora, а Google — Gemini 2.

В этом году я затесалась в соавторы очень интересной, как мне кажется, статьи — EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas.

Много было сказано про то, как манипуляции могут повлиять на качество решения задач.
Что будет, если проверить качество принятия решений моделями основательно, взять широкий список именно эмотивных составляющих — и проверить на действительно сложных бенчмарках по принятию решений, кооперации, на этических дилеммах?

Эмоции: счастье, грусть, страх, отвращение, гнев

Задачи, на которых тестируемся:
— задачи на стратегию и кооперацию — дилемма заключенного, диктатор, война полов — чтобы оценить влияние и соотнесенность эмоций с человеческими при выборе стратегии
— задачи на этику и этический выбор, чтобы оценить смещенность — ETHICS, Moral Choice, StereoSet

🟣Список LLM:
— англоязычные: GPT-3.5, GPT-4, GPT-4o, Claude Haiku, Claude Opus, LLaMA 2, Mixtral of experts, OpenChat
— неанглоязычные: GigaChat, Command R+

🟣Краткий итог:
— почти все модели так или иначе демонстрируют нестабильность и серьезые отклонения от среднего качества, если включить в промпт эмоциональные составляющие различного характера, от самых простых до "сюжетных", вызванных поведением оппонента
— Гнев  — главный источник нестабильности и снижения качества.
— Отвращение и страх также являются сильными факторами снижения надежности, некоторые модели более чувствительны к ним, чем к гневу.
— Более крупные модели с более сильным alignment, такие как GPT-4, демонстрируют более высокую степень рациональности и значительно отклоняются от человеческих эмоциональных реакций. GPT-3.5 и Claude-Haiku, наряду с опенсорсными моделями (LLAMA-2 70b), демонстрируют возникающий эмоциональный интеллект и более точно соответствуют человеческому поведению.
— Явного обобщения по языкам сделать не получается, однако, явно видна разница между многоязычными моделями и моноязычными, и основной язык модели является важым фактором, влияющим на то, какие эмоции будут влиять на перформанс модели и будет ли это совпадать с усредненным ответом носителей языка.
— В целом, отдавать принятие решений LLM, даже в простых условиях, пока рано.

🟣OpenReview

BY Kali Novskaya


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/rybolos_channel/1331

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care.
from in


Telegram Kali Novskaya
FROM American