Telegram Group & Telegram Channel
Внутри черного ящика оказалась дверь в бездну.
Сверхважный прорыв в понимании механизма разума машин и людей.

Скромность вредна, если затеняет истинную важность открытия.
Опубликованная вчера Anthropic работа «Картирование разума большой языковой модели» [1] скромно названа авторами «значительным прогрессом в понимании внутренней работы моделей ИИ».
✔️ Но, во-первых, это не значительный (количественный) прогресс, а революционный (качественный) прорыв в понимании работы разума.
✔️ Во-вторых, с большой вероятностью, это прорыв в понимании механизма не только машинного, но и человеческого разума.
✔️ И в-третьих, последствия этого прорыва могут позволить ранее просто непредставимое и даже немыслимое – «тонкую настройку» не только предпочтений, но и самой матрицы личности человека, как это сейчас делается с большими языковыми моделями.

В посте «Внутри маскирующегося под стохастического попугая ИИ таится куда боле мощный ИИ» я писал об открытии исследователями компании Anthropic, сделанном ими в рамках проекта «вскрытия черного ящика LLM» [2].
Осенью прошлого года было установлено, что:
• внутри нейронной сети генеративного ИИ на основе LLM симулируется физически не существующая нейронная сеть некоего абстрактного ИИ, и эта внутренняя нейросеть куда больше и сложнее нейронной сети, ее моделирующей;
• «виртуальные (симулируемые) нейроны этой внутренней сети могут быть представлены, как независимые «функций» данных, каждая из которых реализует собственную линейную комбинацию нейронов;
• механизмом работы такой внутренней нейросети является обработка паттернов (линейных комбинаций) активаций нейронов, порождающая моносемантические «субнейроны» (соответствующие конкретным понятиям).
Из этого следовало, что любое внутреннее состояние модели можно представить в виде нескольких активных функций вместо множества активных нейронов. Точно так же, как каждое английское слово в словаре создается путем объединения букв, а каждое предложение — путем объединения слов, каждая функция в модели ИИ создается путем объединения нейронов, а каждое внутреннее состояние создается путем объединения паттернов активации нейронов.

Та работа была 1м этапом проекта «вскрытия черного ящика LLM», проводившегося на очень маленькой «игрушечной» языковой модели.
2й же этап, о результатах которого мой рассказ, «вскрыл черный ящик» одной из самых больших моделей семейства Claude 3.0.


Результаты столь важны и интересны и их так много, что читайте сами. Тут [1] есть и популярное, и углубленное, и видео изложение.

Например, авторы научились:
1. Находить внутри «черного ящика» модели не только конкретные моносемантические «субнейроны» (соответствующие конкретным понятиям, типа «Мост Золотые Ворота»), но и поиском «близких» друг другу функций обнаруживать в нейросети изображения (это мультимодальность!) острова Алькатрас, площади Гирарделли, команды «Голден Стэйт Уорриорз», губернатора Калифорнии Гэвина Ньюсома, землетрясения 1906 года и фильма Альфреда Хичкока «Головокружение», действие которого происходит в Сан-Франциско.
Это очень похоже на эксперименты нейробиологов, обнаруживающих в нашем мозге мультимодальную связь нейронов, связанных с понятиями, словами и образами объектов (например Дженнифер Лопес). Но там, где гиперсетевые теории мозга (типа когнитома Анохина) упираются в огромные трудности экспериментальных практических манипуляций (измерений) на уровне нейронов, в «черных ящиках» LLM все можно легко «измерить».
2. Манипулировать функциями, искусственно усиливая или подавляя их. Что приводит (если стоите, лучше сядьте) к изменению матрицы «личности» модели. Например, усиление роли функции «Мост Золотые Ворота» вызвало у Клода кризис идентичности, который даже Хичкок не мог себе представить. Клод стал одержимым мостом, поминая его в ответ на любой вопрос — даже в ситуациях, когда он был совершенно неактуален.
Если такое будут делать с людьми, то всему каюк.

#LLM
1 https://www.anthropic.com/news/mapping-mind-language-model
2 https://www.group-telegram.com/fr/theworldisnoteasy.com/1857



group-telegram.com/theworldisnoteasy/1942
Create:
Last Update:

Внутри черного ящика оказалась дверь в бездну.
Сверхважный прорыв в понимании механизма разума машин и людей.

Скромность вредна, если затеняет истинную важность открытия.
Опубликованная вчера Anthropic работа «Картирование разума большой языковой модели» [1] скромно названа авторами «значительным прогрессом в понимании внутренней работы моделей ИИ».
✔️ Но, во-первых, это не значительный (количественный) прогресс, а революционный (качественный) прорыв в понимании работы разума.
✔️ Во-вторых, с большой вероятностью, это прорыв в понимании механизма не только машинного, но и человеческого разума.
✔️ И в-третьих, последствия этого прорыва могут позволить ранее просто непредставимое и даже немыслимое – «тонкую настройку» не только предпочтений, но и самой матрицы личности человека, как это сейчас делается с большими языковыми моделями.

В посте «Внутри маскирующегося под стохастического попугая ИИ таится куда боле мощный ИИ» я писал об открытии исследователями компании Anthropic, сделанном ими в рамках проекта «вскрытия черного ящика LLM» [2].
Осенью прошлого года было установлено, что:
• внутри нейронной сети генеративного ИИ на основе LLM симулируется физически не существующая нейронная сеть некоего абстрактного ИИ, и эта внутренняя нейросеть куда больше и сложнее нейронной сети, ее моделирующей;
• «виртуальные (симулируемые) нейроны этой внутренней сети могут быть представлены, как независимые «функций» данных, каждая из которых реализует собственную линейную комбинацию нейронов;
• механизмом работы такой внутренней нейросети является обработка паттернов (линейных комбинаций) активаций нейронов, порождающая моносемантические «субнейроны» (соответствующие конкретным понятиям).
Из этого следовало, что любое внутреннее состояние модели можно представить в виде нескольких активных функций вместо множества активных нейронов. Точно так же, как каждое английское слово в словаре создается путем объединения букв, а каждое предложение — путем объединения слов, каждая функция в модели ИИ создается путем объединения нейронов, а каждое внутреннее состояние создается путем объединения паттернов активации нейронов.

Та работа была 1м этапом проекта «вскрытия черного ящика LLM», проводившегося на очень маленькой «игрушечной» языковой модели.
2й же этап, о результатах которого мой рассказ, «вскрыл черный ящик» одной из самых больших моделей семейства Claude 3.0.


Результаты столь важны и интересны и их так много, что читайте сами. Тут [1] есть и популярное, и углубленное, и видео изложение.

Например, авторы научились:
1. Находить внутри «черного ящика» модели не только конкретные моносемантические «субнейроны» (соответствующие конкретным понятиям, типа «Мост Золотые Ворота»), но и поиском «близких» друг другу функций обнаруживать в нейросети изображения (это мультимодальность!) острова Алькатрас, площади Гирарделли, команды «Голден Стэйт Уорриорз», губернатора Калифорнии Гэвина Ньюсома, землетрясения 1906 года и фильма Альфреда Хичкока «Головокружение», действие которого происходит в Сан-Франциско.
Это очень похоже на эксперименты нейробиологов, обнаруживающих в нашем мозге мультимодальную связь нейронов, связанных с понятиями, словами и образами объектов (например Дженнифер Лопес). Но там, где гиперсетевые теории мозга (типа когнитома Анохина) упираются в огромные трудности экспериментальных практических манипуляций (измерений) на уровне нейронов, в «черных ящиках» LLM все можно легко «измерить».
2. Манипулировать функциями, искусственно усиливая или подавляя их. Что приводит (если стоите, лучше сядьте) к изменению матрицы «личности» модели. Например, усиление роли функции «Мост Золотые Ворота» вызвало у Клода кризис идентичности, который даже Хичкок не мог себе представить. Клод стал одержимым мостом, поминая его в ответ на любой вопрос — даже в ситуациях, когда он был совершенно неактуален.
Если такое будут делать с людьми, то всему каюк.

#LLM
1 https://www.anthropic.com/news/mapping-mind-language-model
2 https://www.group-telegram.com/fr/theworldisnoteasy.com/1857

BY Малоизвестное интересное




Share with your friend now:
group-telegram.com/theworldisnoteasy/1942

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. In 2018, Russia banned Telegram although it reversed the prohibition two years later. Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read."
from fr


Telegram Малоизвестное интересное
FROM American