Warning: file_put_contents(aCache/aDaily/post/rybolos_channel/-1327" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">Llama 3.3</a>, OpenAI выпустил <a href="https://t.me/seeallochnaya/2112" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">Sora</a>, а Google — <a href="https://t.me/epsiloncorrect/228" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">Gemini 2.</a><br/><br/>В этом году я затесалась в соавторы очень интересной, как мне кажется, статьи — <i>EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas. </i><br/><br/>Много было сказано про то, как <a href="https://t.me/rybolos_channel/1023-): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Kali Novskaya | Telegram Webview: rybolos_channel/1331 -
Telegram Group & Telegram Channel
🌸EAI: эмоциональный интеллект в принятии решений у LLM🌸
#nlp #про_nlp #ai_alignment

Через пару часов — официальное открытие NeurIPS, самой основной конференции по ИИ.
Многие приурочили релизы к её открытию: мы выпустили Llama 3.3, OpenAI выпустил Sora, а Google — Gemini 2.

В этом году я затесалась в соавторы очень интересной, как мне кажется, статьи — EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas.

Много было сказано про то, как манипуляции могут повлиять на качество решения задач.
Что будет, если проверить качество принятия решений моделями основательно, взять широкий список именно эмотивных составляющих — и проверить на действительно сложных бенчмарках по принятию решений, кооперации, на этических дилеммах?

Эмоции: счастье, грусть, страх, отвращение, гнев

Задачи, на которых тестируемся:
— задачи на стратегию и кооперацию — дилемма заключенного, диктатор, война полов — чтобы оценить влияние и соотнесенность эмоций с человеческими при выборе стратегии
— задачи на этику и этический выбор, чтобы оценить смещенность — ETHICS, Moral Choice, StereoSet

🟣Список LLM:
— англоязычные: GPT-3.5, GPT-4, GPT-4o, Claude Haiku, Claude Opus, LLaMA 2, Mixtral of experts, OpenChat
— неанглоязычные: GigaChat, Command R+

🟣Краткий итог:
— почти все модели так или иначе демонстрируют нестабильность и серьезые отклонения от среднего качества, если включить в промпт эмоциональные составляющие различного характера, от самых простых до "сюжетных", вызванных поведением оппонента
— Гнев  — главный источник нестабильности и снижения качества.
— Отвращение и страх также являются сильными факторами снижения надежности, некоторые модели более чувствительны к ним, чем к гневу.
— Более крупные модели с более сильным alignment, такие как GPT-4, демонстрируют более высокую степень рациональности и значительно отклоняются от человеческих эмоциональных реакций. GPT-3.5 и Claude-Haiku, наряду с опенсорсными моделями (LLAMA-2 70b), демонстрируют возникающий эмоциональный интеллект и более точно соответствуют человеческому поведению.
— Явного обобщения по языкам сделать не получается, однако, явно видна разница между многоязычными моделями и моноязычными, и основной язык модели является важым фактором, влияющим на то, какие эмоции будут влиять на перформанс модели и будет ли это совпадать с усредненным ответом носителей языка.
— В целом, отдавать принятие решений LLM, даже в простых условиях, пока рано.

🟣OpenReview
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1331
Create:
Last Update:

🌸EAI: эмоциональный интеллект в принятии решений у LLM🌸
#nlp #про_nlp #ai_alignment

Через пару часов — официальное открытие NeurIPS, самой основной конференции по ИИ.
Многие приурочили релизы к её открытию: мы выпустили Llama 3.3, OpenAI выпустил Sora, а Google — Gemini 2.

В этом году я затесалась в соавторы очень интересной, как мне кажется, статьи — EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas.

Много было сказано про то, как манипуляции могут повлиять на качество решения задач.
Что будет, если проверить качество принятия решений моделями основательно, взять широкий список именно эмотивных составляющих — и проверить на действительно сложных бенчмарках по принятию решений, кооперации, на этических дилеммах?

Эмоции: счастье, грусть, страх, отвращение, гнев

Задачи, на которых тестируемся:
— задачи на стратегию и кооперацию — дилемма заключенного, диктатор, война полов — чтобы оценить влияние и соотнесенность эмоций с человеческими при выборе стратегии
— задачи на этику и этический выбор, чтобы оценить смещенность — ETHICS, Moral Choice, StereoSet

🟣Список LLM:
— англоязычные: GPT-3.5, GPT-4, GPT-4o, Claude Haiku, Claude Opus, LLaMA 2, Mixtral of experts, OpenChat
— неанглоязычные: GigaChat, Command R+

🟣Краткий итог:
— почти все модели так или иначе демонстрируют нестабильность и серьезые отклонения от среднего качества, если включить в промпт эмоциональные составляющие различного характера, от самых простых до "сюжетных", вызванных поведением оппонента
— Гнев  — главный источник нестабильности и снижения качества.
— Отвращение и страх также являются сильными факторами снижения надежности, некоторые модели более чувствительны к ним, чем к гневу.
— Более крупные модели с более сильным alignment, такие как GPT-4, демонстрируют более высокую степень рациональности и значительно отклоняются от человеческих эмоциональных реакций. GPT-3.5 и Claude-Haiku, наряду с опенсорсными моделями (LLAMA-2 70b), демонстрируют возникающий эмоциональный интеллект и более точно соответствуют человеческому поведению.
— Явного обобщения по языкам сделать не получается, однако, явно видна разница между многоязычными моделями и моноязычными, и основной язык модели является важым фактором, влияющим на то, какие эмоции будут влиять на перформанс модели и будет ли это совпадать с усредненным ответом носителей языка.
— В целом, отдавать принятие решений LLM, даже в простых условиях, пока рано.

🟣OpenReview

BY Kali Novskaya


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/rybolos_channel/1331

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app.
from tw


Telegram Kali Novskaya
FROM American