Telegram Group & Telegram Channel
Но это была не самая интересная часть статьи — не зря же я писал про интерпретируемость?

Авторы задаются вопросами: почему в одном случае модель обобщается и работает, а в другом нет? Как именно модель грокнула задачу и начала решать задачу, какой механизм используется?

Оказывается, эти два вопроса связаны.— все дело в том, как модель решает задачу внутри себя.

В задаче композиции модель разбивается на 2 половинки. В первой она решает задачу «вытащить релевантную сущность», а во второй «вытащить нужное значения для найденной сущности». На примере:
— Возраст жены Барака ... (нужно написать цифру из атомарного факта)

Первые слои вытаскивают информацию о жене Барака (Мишель), и задача как бы становится «Возраст Мишель..» (это было дано в атомарных фактах). И вторая половина модели просто достаёт этот факт.

Проблема в том, что поскольку для части сущностей мы никогда не показывали такие задачки отношений, то модель не запомнила их и не разместила во второй половине. Ей просто неоткуда достать информацию, её не существует в момент обработки — она осталась в первых слоях, в первой половине модели. И это указывает на ограничение архитектуры трансформера — у каждого блока своя память (зашитая в параметры модели), и не получится вернуться на несколько блоков назад, чтобы найти какой-то факт. Если пропустил — всё. Авторы валидируют эту гипотезу изменением трансформера, предоставляя возможность обращаться к фактам из первых слоёв (по сути, банки знаний были общими для двух половинок) — и это заставляет модель работать даже для OOD задачи!

Вот так интерпретирование подсказывает, как нужно менять архитектуру, чтобы получить модель, вырабатывающую генерализуемую логику.

Но почему всё заработало сразу в задаче сравнения? А там работал другой механизм — в первой половине модели происходило извлечение фактов сразу для обеих сущностей (в моём примере это возраст Трампа и Байдена), а во второй половине происходило сравнение. Так как все факты модель успела запомнить, то такое «параллельное» извлечение знаний/выполнение задачи позволило работать с любыми сравнениями.

Самое крутое — что можно вот прямо заглянуть в трансформер и понять, решает модель задачу (научилась логике) или же просто запоминает, что ей говорят.



group-telegram.com/seeallochnaya/1476
Create:
Last Update:

Но это была не самая интересная часть статьи — не зря же я писал про интерпретируемость?

Авторы задаются вопросами: почему в одном случае модель обобщается и работает, а в другом нет? Как именно модель грокнула задачу и начала решать задачу, какой механизм используется?

Оказывается, эти два вопроса связаны.— все дело в том, как модель решает задачу внутри себя.

В задаче композиции модель разбивается на 2 половинки. В первой она решает задачу «вытащить релевантную сущность», а во второй «вытащить нужное значения для найденной сущности». На примере:
— Возраст жены Барака ... (нужно написать цифру из атомарного факта)

Первые слои вытаскивают информацию о жене Барака (Мишель), и задача как бы становится «Возраст Мишель..» (это было дано в атомарных фактах). И вторая половина модели просто достаёт этот факт.

Проблема в том, что поскольку для части сущностей мы никогда не показывали такие задачки отношений, то модель не запомнила их и не разместила во второй половине. Ей просто неоткуда достать информацию, её не существует в момент обработки — она осталась в первых слоях, в первой половине модели. И это указывает на ограничение архитектуры трансформера — у каждого блока своя память (зашитая в параметры модели), и не получится вернуться на несколько блоков назад, чтобы найти какой-то факт. Если пропустил — всё. Авторы валидируют эту гипотезу изменением трансформера, предоставляя возможность обращаться к фактам из первых слоёв (по сути, банки знаний были общими для двух половинок) — и это заставляет модель работать даже для OOD задачи!

Вот так интерпретирование подсказывает, как нужно менять архитектуру, чтобы получить модель, вырабатывающую генерализуемую логику.

Но почему всё заработало сразу в задаче сравнения? А там работал другой механизм — в первой половине модели происходило извлечение фактов сразу для обеих сущностей (в моём примере это возраст Трампа и Байдена), а во второй половине происходило сравнение. Так как все факты модель успела запомнить, то такое «параллельное» извлечение знаний/выполнение задачи позволило работать с любыми сравнениями.

Самое крутое — что можно вот прямо заглянуть в трансформер и понять, решает модель задачу (научилась логике) или же просто запоминает, что ей говорят.

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1476

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands.
from es


Telegram Сиолошная
FROM American