Telegram Group & Telegram Channel
Вчера вышла интересная статья от ребят из Salesforce. Когда-то для меня было удивлением, что у них вообще есть отдел исследований искусственного интеллекта, ведь их основной бизнес - это SaaS CRM-система (по простому, система управления взаимоотношениями с клиентами по модели предоставления готового ПО). У них даже тикер на бирже CRM, хех 🤔

Так вот, они то и дело выпускают неплохие работы по Large Language Models и мультимодальным моделям, причём субъективно у меня складывается ощущение, что многое делается с задачей уменьшения требуемых ресурсов. То есть не полгода тренировать нейронку на кластере GPU, а нечто более приземленное.

Мультимодальные модели - это модели, работающие с несколькими типами данных, или модальностями. Картинки, текст, звук, видео - это разные модальности, и приемы-архитектуры нейронок должны быть адаптированы для них. Один из самых простых примеров мультимодальности - это ответ на вопрос по картинке: в каком городе находится достопримечательность (и картинка) ? что надето на человеке справа? И так далее.

Основная проблема в том, что нужно связывать два разных сигнала, от изображения и текста. Подходы давно существуют, работают неплохо, но зачастую требуют длительного обучения большиииииих моделек, чтобы "выровнять" их, или связать - то есть чтобы текстовая модель понимала сигнал от картиночной и наоборот.

Господа из Salesforce предложили переиспользовать существующие модели, замораживая их веса во время обучения (то есть не считая по ним градиенты и не изменяя), а между ними обучать маленькую сетку, которая формирует запросы (в прямом и переносном смысле) от одной модели к другой (на прикрепленном изображении это Q-former). Получается, что обучать нужно совсем мало - а метрики выходят лучше, чем у текущего State-of-the-Art подхода.
Подход просто гениален в своей простоте и изящности)

💨 Статья тут, веса и код здесь, коллаб имеется - можно зайти поиграться со своими картинками.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/41
Create:
Last Update:

Вчера вышла интересная статья от ребят из Salesforce. Когда-то для меня было удивлением, что у них вообще есть отдел исследований искусственного интеллекта, ведь их основной бизнес - это SaaS CRM-система (по простому, система управления взаимоотношениями с клиентами по модели предоставления готового ПО). У них даже тикер на бирже CRM, хех 🤔

Так вот, они то и дело выпускают неплохие работы по Large Language Models и мультимодальным моделям, причём субъективно у меня складывается ощущение, что многое делается с задачей уменьшения требуемых ресурсов. То есть не полгода тренировать нейронку на кластере GPU, а нечто более приземленное.

Мультимодальные модели - это модели, работающие с несколькими типами данных, или модальностями. Картинки, текст, звук, видео - это разные модальности, и приемы-архитектуры нейронок должны быть адаптированы для них. Один из самых простых примеров мультимодальности - это ответ на вопрос по картинке: в каком городе находится достопримечательность (и картинка) ? что надето на человеке справа? И так далее.

Основная проблема в том, что нужно связывать два разных сигнала, от изображения и текста. Подходы давно существуют, работают неплохо, но зачастую требуют длительного обучения большиииииих моделек, чтобы "выровнять" их, или связать - то есть чтобы текстовая модель понимала сигнал от картиночной и наоборот.

Господа из Salesforce предложили переиспользовать существующие модели, замораживая их веса во время обучения (то есть не считая по ним градиенты и не изменяя), а между ними обучать маленькую сетку, которая формирует запросы (в прямом и переносном смысле) от одной модели к другой (на прикрепленном изображении это Q-former). Получается, что обучать нужно совсем мало - а метрики выходят лучше, чем у текущего State-of-the-Art подхода.
Подход просто гениален в своей простоте и изящности)

💨 Статья тут, веса и код здесь, коллаб имеется - можно зайти поиграться со своими картинками.

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/41

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. Recently, Durav wrote on his Telegram channel that users' right to privacy, in light of the war in Ukraine, is "sacred, now more than ever." The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market.
from ye


Telegram Сиолошная
FROM American