Telegram Group & Telegram Channel
Антропоморфизация больших языковых моделей

Не очень люблю говорить в компаниях про LLMs (Large Language Models: GPT, ChatGPT, LaMDA ...), потому что почти сразу тезис "скоро нейронные сети обретут сознание и всех поработят" становится основным. Я в таких случаях, кратко рассказываю как устроены модели. О том, что генеративные модели по принципу работают как автодополнение на телефоне. О том, что сети показали много текстов и во время обучения задача была в предсказании следующего слова при условии предыдущих. И о том, что обретение сознания не совсем верный тезис в подобном контексте.

Однако, в медиа постоянно выходят статьи с заголовками типа:
1. The Google engineer who thinks the company’s AI has come to life
2. 'I want to be alive': Has Microsoft's AI chatbot become sentient?

Давно искал что-то осмысленное про то, как люди наделяют человеческими свойствами языковые модели. И вот мне на глаза попалась статья Talking About Large Language Models от профессора Murray Shanahan из Imperial College

Ключевые тезисы такие:

1. Основной принцип работы LLM: генерация статистически вероятных продолжений последовательностей слов.
2. Многие задачи, для решения которых вроде бы нужен разум человека, можно свести к задаче предсказания следующего токена (слова).
3. Люди часто прибегают к антропормфизации (очеловечиванию) разных объектов для упрощения сложных процессов. (“мой телефон думает, что мы в другом месте.”) Это называется Intentional Stance.
4. Исследователи в своих статьях активно используют слова "знает", "верит", "думает" по отношению к LLM, подразумевая конкретные процессы вычислений.
5. Иногда видя слова "знает", "верит", "думает" люди могут начать ложно ожидать большего поведения, чем такие модели имеют.

В статье мне понравилось, что последовательно разбираются аргументы почему эти слова не очень корректно использовать в привычном их значении даже если модели могут:
• отвечать на вопросы которых не было в трейне
• ходить в другие системы
• отвечать по данным другой модальности (например, изобржаниям)
• выполнять задачи в реальном мире с помощью манипуляторов

Кому лень читать всю статью, сделал более подробный пересказ.
https://telegra.ph/Konspekt-stati-Talking-About-Large-Language-Models-02-19



group-telegram.com/c0mmit/41
Create:
Last Update:

Антропоморфизация больших языковых моделей

Не очень люблю говорить в компаниях про LLMs (Large Language Models: GPT, ChatGPT, LaMDA ...), потому что почти сразу тезис "скоро нейронные сети обретут сознание и всех поработят" становится основным. Я в таких случаях, кратко рассказываю как устроены модели. О том, что генеративные модели по принципу работают как автодополнение на телефоне. О том, что сети показали много текстов и во время обучения задача была в предсказании следующего слова при условии предыдущих. И о том, что обретение сознания не совсем верный тезис в подобном контексте.

Однако, в медиа постоянно выходят статьи с заголовками типа:
1. The Google engineer who thinks the company’s AI has come to life
2. 'I want to be alive': Has Microsoft's AI chatbot become sentient?

Давно искал что-то осмысленное про то, как люди наделяют человеческими свойствами языковые модели. И вот мне на глаза попалась статья Talking About Large Language Models от профессора Murray Shanahan из Imperial College

Ключевые тезисы такие:

1. Основной принцип работы LLM: генерация статистически вероятных продолжений последовательностей слов.
2. Многие задачи, для решения которых вроде бы нужен разум человека, можно свести к задаче предсказания следующего токена (слова).
3. Люди часто прибегают к антропормфизации (очеловечиванию) разных объектов для упрощения сложных процессов. (“мой телефон думает, что мы в другом месте.”) Это называется Intentional Stance.
4. Исследователи в своих статьях активно используют слова "знает", "верит", "думает" по отношению к LLM, подразумевая конкретные процессы вычислений.
5. Иногда видя слова "знает", "верит", "думает" люди могут начать ложно ожидать большего поведения, чем такие модели имеют.

В статье мне понравилось, что последовательно разбираются аргументы почему эти слова не очень корректно использовать в привычном их значении даже если модели могут:
• отвечать на вопросы которых не было в трейне
• ходить в другие системы
• отвечать по данным другой модальности (например, изобржаниям)
• выполнять задачи в реальном мире с помощью манипуляторов

Кому лень читать всю статью, сделал более подробный пересказ.
https://telegra.ph/Konspekt-stati-Talking-About-Large-Language-Models-02-19

BY commit history


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/c0mmit/41

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site.
from nl


Telegram commit history
FROM American