Telegram Group & Telegram Channel
Антропоморфизация больших языковых моделей

Не очень люблю говорить в компаниях про LLMs (Large Language Models: GPT, ChatGPT, LaMDA ...), потому что почти сразу тезис "скоро нейронные сети обретут сознание и всех поработят" становится основным. Я в таких случаях, кратко рассказываю как устроены модели. О том, что генеративные модели по принципу работают как автодополнение на телефоне. О том, что сети показали много текстов и во время обучения задача была в предсказании следующего слова при условии предыдущих. И о том, что обретение сознания не совсем верный тезис в подобном контексте.

Однако, в медиа постоянно выходят статьи с заголовками типа:
1. The Google engineer who thinks the company’s AI has come to life
2. 'I want to be alive': Has Microsoft's AI chatbot become sentient?

Давно искал что-то осмысленное про то, как люди наделяют человеческими свойствами языковые модели. И вот мне на глаза попалась статья Talking About Large Language Models от профессора Murray Shanahan из Imperial College

Ключевые тезисы такие:

1. Основной принцип работы LLM: генерация статистически вероятных продолжений последовательностей слов.
2. Многие задачи, для решения которых вроде бы нужен разум человека, можно свести к задаче предсказания следующего токена (слова).
3. Люди часто прибегают к антропормфизации (очеловечиванию) разных объектов для упрощения сложных процессов. (“мой телефон думает, что мы в другом месте.”) Это называется Intentional Stance.
4. Исследователи в своих статьях активно используют слова "знает", "верит", "думает" по отношению к LLM, подразумевая конкретные процессы вычислений.
5. Иногда видя слова "знает", "верит", "думает" люди могут начать ложно ожидать большего поведения, чем такие модели имеют.

В статье мне понравилось, что последовательно разбираются аргументы почему эти слова не очень корректно использовать в привычном их значении даже если модели могут:
• отвечать на вопросы которых не было в трейне
• ходить в другие системы
• отвечать по данным другой модальности (например, изобржаниям)
• выполнять задачи в реальном мире с помощью манипуляторов

Кому лень читать всю статью, сделал более подробный пересказ.
https://telegra.ph/Konspekt-stati-Talking-About-Large-Language-Models-02-19



group-telegram.com/c0mmit/41
Create:
Last Update:

Антропоморфизация больших языковых моделей

Не очень люблю говорить в компаниях про LLMs (Large Language Models: GPT, ChatGPT, LaMDA ...), потому что почти сразу тезис "скоро нейронные сети обретут сознание и всех поработят" становится основным. Я в таких случаях, кратко рассказываю как устроены модели. О том, что генеративные модели по принципу работают как автодополнение на телефоне. О том, что сети показали много текстов и во время обучения задача была в предсказании следующего слова при условии предыдущих. И о том, что обретение сознания не совсем верный тезис в подобном контексте.

Однако, в медиа постоянно выходят статьи с заголовками типа:
1. The Google engineer who thinks the company’s AI has come to life
2. 'I want to be alive': Has Microsoft's AI chatbot become sentient?

Давно искал что-то осмысленное про то, как люди наделяют человеческими свойствами языковые модели. И вот мне на глаза попалась статья Talking About Large Language Models от профессора Murray Shanahan из Imperial College

Ключевые тезисы такие:

1. Основной принцип работы LLM: генерация статистически вероятных продолжений последовательностей слов.
2. Многие задачи, для решения которых вроде бы нужен разум человека, можно свести к задаче предсказания следующего токена (слова).
3. Люди часто прибегают к антропормфизации (очеловечиванию) разных объектов для упрощения сложных процессов. (“мой телефон думает, что мы в другом месте.”) Это называется Intentional Stance.
4. Исследователи в своих статьях активно используют слова "знает", "верит", "думает" по отношению к LLM, подразумевая конкретные процессы вычислений.
5. Иногда видя слова "знает", "верит", "думает" люди могут начать ложно ожидать большего поведения, чем такие модели имеют.

В статье мне понравилось, что последовательно разбираются аргументы почему эти слова не очень корректно использовать в привычном их значении даже если модели могут:
• отвечать на вопросы которых не было в трейне
• ходить в другие системы
• отвечать по данным другой модальности (например, изобржаниям)
• выполнять задачи в реальном мире с помощью манипуляторов

Кому лень читать всю статью, сделал более подробный пересказ.
https://telegra.ph/Konspekt-stati-Talking-About-Large-Language-Models-02-19

BY commit history


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/c0mmit/41

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. I want a secure messaging app, should I use Telegram? Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments.
from id


Telegram commit history
FROM American