Telegram Group & Telegram Channel
Но это была не самая интересная часть статьи — не зря же я писал про интерпретируемость?

Авторы задаются вопросами: почему в одном случае модель обобщается и работает, а в другом нет? Как именно модель грокнула задачу и начала решать задачу, какой механизм используется?

Оказывается, эти два вопроса связаны.— все дело в том, как модель решает задачу внутри себя.

В задаче композиции модель разбивается на 2 половинки. В первой она решает задачу «вытащить релевантную сущность», а во второй «вытащить нужное значения для найденной сущности». На примере:
— Возраст жены Барака ... (нужно написать цифру из атомарного факта)

Первые слои вытаскивают информацию о жене Барака (Мишель), и задача как бы становится «Возраст Мишель..» (это было дано в атомарных фактах). И вторая половина модели просто достаёт этот факт.

Проблема в том, что поскольку для части сущностей мы никогда не показывали такие задачки отношений, то модель не запомнила их и не разместила во второй половине. Ей просто неоткуда достать информацию, её не существует в момент обработки — она осталась в первых слоях, в первой половине модели. И это указывает на ограничение архитектуры трансформера — у каждого блока своя память (зашитая в параметры модели), и не получится вернуться на несколько блоков назад, чтобы найти какой-то факт. Если пропустил — всё. Авторы валидируют эту гипотезу изменением трансформера, предоставляя возможность обращаться к фактам из первых слоёв (по сути, банки знаний были общими для двух половинок) — и это заставляет модель работать даже для OOD задачи!

Вот так интерпретирование подсказывает, как нужно менять архитектуру, чтобы получить модель, вырабатывающую генерализуемую логику.

Но почему всё заработало сразу в задаче сравнения? А там работал другой механизм — в первой половине модели происходило извлечение фактов сразу для обеих сущностей (в моём примере это возраст Трампа и Байдена), а во второй половине происходило сравнение. Так как все факты модель успела запомнить, то такое «параллельное» извлечение знаний/выполнение задачи позволило работать с любыми сравнениями.

Самое крутое — что можно вот прямо заглянуть в трансформер и понять, решает модель задачу (научилась логике) или же просто запоминает, что ей говорят.
👍162🔥70❤‍🔥27🤯16🤔4💩1🤡1



group-telegram.com/seeallochnaya/1476
Create:
Last Update:

Но это была не самая интересная часть статьи — не зря же я писал про интерпретируемость?

Авторы задаются вопросами: почему в одном случае модель обобщается и работает, а в другом нет? Как именно модель грокнула задачу и начала решать задачу, какой механизм используется?

Оказывается, эти два вопроса связаны.— все дело в том, как модель решает задачу внутри себя.

В задаче композиции модель разбивается на 2 половинки. В первой она решает задачу «вытащить релевантную сущность», а во второй «вытащить нужное значения для найденной сущности». На примере:
— Возраст жены Барака ... (нужно написать цифру из атомарного факта)

Первые слои вытаскивают информацию о жене Барака (Мишель), и задача как бы становится «Возраст Мишель..» (это было дано в атомарных фактах). И вторая половина модели просто достаёт этот факт.

Проблема в том, что поскольку для части сущностей мы никогда не показывали такие задачки отношений, то модель не запомнила их и не разместила во второй половине. Ей просто неоткуда достать информацию, её не существует в момент обработки — она осталась в первых слоях, в первой половине модели. И это указывает на ограничение архитектуры трансформера — у каждого блока своя память (зашитая в параметры модели), и не получится вернуться на несколько блоков назад, чтобы найти какой-то факт. Если пропустил — всё. Авторы валидируют эту гипотезу изменением трансформера, предоставляя возможность обращаться к фактам из первых слоёв (по сути, банки знаний были общими для двух половинок) — и это заставляет модель работать даже для OOD задачи!

Вот так интерпретирование подсказывает, как нужно менять архитектуру, чтобы получить модель, вырабатывающую генерализуемую логику.

Но почему всё заработало сразу в задаче сравнения? А там работал другой механизм — в первой половине модели происходило извлечение фактов сразу для обеих сущностей (в моём примере это возраст Трампа и Байдена), а во второй половине происходило сравнение. Так как все факты модель успела запомнить, то такое «параллельное» извлечение знаний/выполнение задачи позволило работать с любыми сравнениями.

Самое крутое — что можно вот прямо заглянуть в трансформер и понять, решает модель задачу (научилась логике) или же просто запоминает, что ей говорят.

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1476

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. Founder Pavel Durov says tech is meant to set you free The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback.
from es


Telegram Сиолошная
FROM American