Telegram Group & Telegram Channel
Но это была не самая интересная часть статьи — не зря же я писал про интерпретируемость?

Авторы задаются вопросами: почему в одном случае модель обобщается и работает, а в другом нет? Как именно модель грокнула задачу и начала решать задачу, какой механизм используется?

Оказывается, эти два вопроса связаны.— все дело в том, как модель решает задачу внутри себя.

В задаче композиции модель разбивается на 2 половинки. В первой она решает задачу «вытащить релевантную сущность», а во второй «вытащить нужное значения для найденной сущности». На примере:
— Возраст жены Барака ... (нужно написать цифру из атомарного факта)

Первые слои вытаскивают информацию о жене Барака (Мишель), и задача как бы становится «Возраст Мишель..» (это было дано в атомарных фактах). И вторая половина модели просто достаёт этот факт.

Проблема в том, что поскольку для части сущностей мы никогда не показывали такие задачки отношений, то модель не запомнила их и не разместила во второй половине. Ей просто неоткуда достать информацию, её не существует в момент обработки — она осталась в первых слоях, в первой половине модели. И это указывает на ограничение архитектуры трансформера — у каждого блока своя память (зашитая в параметры модели), и не получится вернуться на несколько блоков назад, чтобы найти какой-то факт. Если пропустил — всё. Авторы валидируют эту гипотезу изменением трансформера, предоставляя возможность обращаться к фактам из первых слоёв (по сути, банки знаний были общими для двух половинок) — и это заставляет модель работать даже для OOD задачи!

Вот так интерпретирование подсказывает, как нужно менять архитектуру, чтобы получить модель, вырабатывающую генерализуемую логику.

Но почему всё заработало сразу в задаче сравнения? А там работал другой механизм — в первой половине модели происходило извлечение фактов сразу для обеих сущностей (в моём примере это возраст Трампа и Байдена), а во второй половине происходило сравнение. Так как все факты модель успела запомнить, то такое «параллельное» извлечение знаний/выполнение задачи позволило работать с любыми сравнениями.

Самое крутое — что можно вот прямо заглянуть в трансформер и понять, решает модель задачу (научилась логике) или же просто запоминает, что ей говорят.



group-telegram.com/seeallochnaya/1476
Create:
Last Update:

Но это была не самая интересная часть статьи — не зря же я писал про интерпретируемость?

Авторы задаются вопросами: почему в одном случае модель обобщается и работает, а в другом нет? Как именно модель грокнула задачу и начала решать задачу, какой механизм используется?

Оказывается, эти два вопроса связаны.— все дело в том, как модель решает задачу внутри себя.

В задаче композиции модель разбивается на 2 половинки. В первой она решает задачу «вытащить релевантную сущность», а во второй «вытащить нужное значения для найденной сущности». На примере:
— Возраст жены Барака ... (нужно написать цифру из атомарного факта)

Первые слои вытаскивают информацию о жене Барака (Мишель), и задача как бы становится «Возраст Мишель..» (это было дано в атомарных фактах). И вторая половина модели просто достаёт этот факт.

Проблема в том, что поскольку для части сущностей мы никогда не показывали такие задачки отношений, то модель не запомнила их и не разместила во второй половине. Ей просто неоткуда достать информацию, её не существует в момент обработки — она осталась в первых слоях, в первой половине модели. И это указывает на ограничение архитектуры трансформера — у каждого блока своя память (зашитая в параметры модели), и не получится вернуться на несколько блоков назад, чтобы найти какой-то факт. Если пропустил — всё. Авторы валидируют эту гипотезу изменением трансформера, предоставляя возможность обращаться к фактам из первых слоёв (по сути, банки знаний были общими для двух половинок) — и это заставляет модель работать даже для OOD задачи!

Вот так интерпретирование подсказывает, как нужно менять архитектуру, чтобы получить модель, вырабатывающую генерализуемую логику.

Но почему всё заработало сразу в задаче сравнения? А там работал другой механизм — в первой половине модели происходило извлечение фактов сразу для обеих сущностей (в моём примере это возраст Трампа и Байдена), а во второй половине происходило сравнение. Так как все факты модель успела запомнить, то такое «параллельное» извлечение знаний/выполнение задачи позволило работать с любыми сравнениями.

Самое крутое — что можно вот прямо заглянуть в трансформер и понять, решает модель задачу (научилась логике) или же просто запоминает, что ей говорят.

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1476

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Some privacy experts say Telegram is not secure enough The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links.
from us


Telegram Сиолошная
FROM American