Telegram Group & Telegram Channel
Вчера вышла интересная статья от ребят из Salesforce. Когда-то для меня было удивлением, что у них вообще есть отдел исследований искусственного интеллекта, ведь их основной бизнес - это SaaS CRM-система (по простому, система управления взаимоотношениями с клиентами по модели предоставления готового ПО). У них даже тикер на бирже CRM, хех 🤔

Так вот, они то и дело выпускают неплохие работы по Large Language Models и мультимодальным моделям, причём субъективно у меня складывается ощущение, что многое делается с задачей уменьшения требуемых ресурсов. То есть не полгода тренировать нейронку на кластере GPU, а нечто более приземленное.

Мультимодальные модели - это модели, работающие с несколькими типами данных, или модальностями. Картинки, текст, звук, видео - это разные модальности, и приемы-архитектуры нейронок должны быть адаптированы для них. Один из самых простых примеров мультимодальности - это ответ на вопрос по картинке: в каком городе находится достопримечательность (и картинка) ? что надето на человеке справа? И так далее.

Основная проблема в том, что нужно связывать два разных сигнала, от изображения и текста. Подходы давно существуют, работают неплохо, но зачастую требуют длительного обучения большиииииих моделек, чтобы "выровнять" их, или связать - то есть чтобы текстовая модель понимала сигнал от картиночной и наоборот.

Господа из Salesforce предложили переиспользовать существующие модели, замораживая их веса во время обучения (то есть не считая по ним градиенты и не изменяя), а между ними обучать маленькую сетку, которая формирует запросы (в прямом и переносном смысле) от одной модели к другой (на прикрепленном изображении это Q-former). Получается, что обучать нужно совсем мало - а метрики выходят лучше, чем у текущего State-of-the-Art подхода.
Подход просто гениален в своей простоте и изящности)

💨 Статья тут, веса и код здесь, коллаб имеется - можно зайти поиграться со своими картинками.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/41
Create:
Last Update:

Вчера вышла интересная статья от ребят из Salesforce. Когда-то для меня было удивлением, что у них вообще есть отдел исследований искусственного интеллекта, ведь их основной бизнес - это SaaS CRM-система (по простому, система управления взаимоотношениями с клиентами по модели предоставления готового ПО). У них даже тикер на бирже CRM, хех 🤔

Так вот, они то и дело выпускают неплохие работы по Large Language Models и мультимодальным моделям, причём субъективно у меня складывается ощущение, что многое делается с задачей уменьшения требуемых ресурсов. То есть не полгода тренировать нейронку на кластере GPU, а нечто более приземленное.

Мультимодальные модели - это модели, работающие с несколькими типами данных, или модальностями. Картинки, текст, звук, видео - это разные модальности, и приемы-архитектуры нейронок должны быть адаптированы для них. Один из самых простых примеров мультимодальности - это ответ на вопрос по картинке: в каком городе находится достопримечательность (и картинка) ? что надето на человеке справа? И так далее.

Основная проблема в том, что нужно связывать два разных сигнала, от изображения и текста. Подходы давно существуют, работают неплохо, но зачастую требуют длительного обучения большиииииих моделек, чтобы "выровнять" их, или связать - то есть чтобы текстовая модель понимала сигнал от картиночной и наоборот.

Господа из Salesforce предложили переиспользовать существующие модели, замораживая их веса во время обучения (то есть не считая по ним градиенты и не изменяя), а между ними обучать маленькую сетку, которая формирует запросы (в прямом и переносном смысле) от одной модели к другой (на прикрепленном изображении это Q-former). Получается, что обучать нужно совсем мало - а метрики выходят лучше, чем у текущего State-of-the-Art подхода.
Подход просто гениален в своей простоте и изящности)

💨 Статья тут, веса и код здесь, коллаб имеется - можно зайти поиграться со своими картинками.

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/41

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. I want a secure messaging app, should I use Telegram? In 2014, Pavel Durov fled the country after allies of the Kremlin took control of the social networking site most know just as VK. Russia's intelligence agency had asked Durov to turn over the data of anti-Kremlin protesters. Durov refused to do so.
from ar


Telegram Сиолошная
FROM American