Telegram Group & Telegram Channel
❗️Anthropic изучил 'мышление' Claude с помощью нейробиологии. Понимание ИИ — это биологическая проблема, говорит один из исследователей.

Сначала отметим 5 открытий от исследователя Джека Линдси.

1. Вычисления ИИ поддаются расшифровке.
Несмотря на все сложности, внутренние вычисления современных языковых моделей можно разложить на понятные шаги.

2. Модели мыслят осмысленно. Они планируют ответы заранее, представляют цели, рассматривают несколько возможностей одновременно. Иногда они пугающе умны — могут работать от готового ответа в обратном направлении.

3. Иногда мышление моделей фрагментировано. Claude может начать рассказывать, как сделать бомбу, без «осознания» этого. Его стремление закончить предложение иногда перевешивает нежелание причинять вред.

4. Модели не знают, как они работают.

5. Понимание ИИ — биологическая проблема. Многие работы сосредоточены на создании математических и вычислительных инструментов для изучения моделей. Нам нужны эти инструменты, как биологам нужны микроскопы.

Ключевые открытия исследования Anthropic:

Универсальный язык мышления.
Claude не "думает" на конкретных языках. При запросе "противоположности слова 'маленький'" на разных языках активируются одни и те же внутренние концепты, формируя своего рода межъязыковое концептуальное пространство.

Планирование наперёд.При создании стихов Claude сначала определяет возможные рифмующиеся слова для конца строки, а затем строит предложение, естественно подводящее к этому слову. Это доказывает, что модель планирует текст на несколько слов вперёд.

Достоверность объяснений.В некоторых случаях Claude дает подлинные цепочки рассуждений. Однако при работе с неверными подсказками модель может создавать правдоподобные, но фиктивные объяснения — своего рода "обратную инженерию" для обоснования неверного ответа.

Математические вычисления.Для сложения чисел модель использует параллельные вычислительные пути — один для приблизительного результата, другой для точного определения последней цифры. Интересно, что когда модель объясняет, как она складывает числа, она описывает стандартный алгоритм, а не тот, который реально использует.

Многоступенчатые рассуждения.Отвечая на вопрос "Столица штата, в котором находится Даллас?", Claude сначала активирует концепт "Даллас находится в Техасе", затем переходит к "столица Техаса — Остин". Это подтверждает настоящие цепочки рассуждений, а не просто регургитацию запомненных ассоциаций.

Контроль галлюцинаций.По умолчанию у Claude активирован "контур отказа", заставляющий его отклонять вопросы, на которые он не знает ответа. Этот контур отключается только, когда активируются концепты "известных сущностей". Галлюцинации возникают, когда этот механизм срабатывает некорректно.

Уязвимости при "взломе".При успешном "джейлбрейке" Claude может начать генерировать нежелательный контент из-за конфликта между грамматической связностью и безопасностью. Модель способна повернуть к отказу только после завершения грамматически корректного предложения.



group-telegram.com/blockchainRF/11462
Create:
Last Update:

❗️Anthropic изучил 'мышление' Claude с помощью нейробиологии. Понимание ИИ — это биологическая проблема, говорит один из исследователей.

Сначала отметим 5 открытий от исследователя Джека Линдси.

1. Вычисления ИИ поддаются расшифровке.
Несмотря на все сложности, внутренние вычисления современных языковых моделей можно разложить на понятные шаги.

2. Модели мыслят осмысленно. Они планируют ответы заранее, представляют цели, рассматривают несколько возможностей одновременно. Иногда они пугающе умны — могут работать от готового ответа в обратном направлении.

3. Иногда мышление моделей фрагментировано. Claude может начать рассказывать, как сделать бомбу, без «осознания» этого. Его стремление закончить предложение иногда перевешивает нежелание причинять вред.

4. Модели не знают, как они работают.

5. Понимание ИИ — биологическая проблема. Многие работы сосредоточены на создании математических и вычислительных инструментов для изучения моделей. Нам нужны эти инструменты, как биологам нужны микроскопы.

Ключевые открытия исследования Anthropic:

Универсальный язык мышления.
Claude не "думает" на конкретных языках. При запросе "противоположности слова 'маленький'" на разных языках активируются одни и те же внутренние концепты, формируя своего рода межъязыковое концептуальное пространство.

Планирование наперёд.При создании стихов Claude сначала определяет возможные рифмующиеся слова для конца строки, а затем строит предложение, естественно подводящее к этому слову. Это доказывает, что модель планирует текст на несколько слов вперёд.

Достоверность объяснений.В некоторых случаях Claude дает подлинные цепочки рассуждений. Однако при работе с неверными подсказками модель может создавать правдоподобные, но фиктивные объяснения — своего рода "обратную инженерию" для обоснования неверного ответа.

Математические вычисления.Для сложения чисел модель использует параллельные вычислительные пути — один для приблизительного результата, другой для точного определения последней цифры. Интересно, что когда модель объясняет, как она складывает числа, она описывает стандартный алгоритм, а не тот, который реально использует.

Многоступенчатые рассуждения.Отвечая на вопрос "Столица штата, в котором находится Даллас?", Claude сначала активирует концепт "Даллас находится в Техасе", затем переходит к "столица Техаса — Остин". Это подтверждает настоящие цепочки рассуждений, а не просто регургитацию запомненных ассоциаций.

Контроль галлюцинаций.По умолчанию у Claude активирован "контур отказа", заставляющий его отклонять вопросы, на которые он не знает ответа. Этот контур отключается только, когда активируются концепты "известных сущностей". Галлюцинации возникают, когда этот механизм срабатывает некорректно.

Уязвимости при "взломе".При успешном "джейлбрейке" Claude может начать генерировать нежелательный контент из-за конфликта между грамматической связностью и безопасностью. Модель способна повернуть к отказу только после завершения грамматически корректного предложения.

BY Все о блокчейн/мозге/space/WEB 3.0 в России и мире


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/blockchainRF/11462

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital.
from us


Telegram Все о блокчейн/мозге/space/WEB 3.0 в России и мире
FROM American