Telegram Group & Telegram Channel
Вчера вышла интересная статья от ребят из Salesforce. Когда-то для меня было удивлением, что у них вообще есть отдел исследований искусственного интеллекта, ведь их основной бизнес - это SaaS CRM-система (по простому, система управления взаимоотношениями с клиентами по модели предоставления готового ПО). У них даже тикер на бирже CRM, хех 🤔

Так вот, они то и дело выпускают неплохие работы по Large Language Models и мультимодальным моделям, причём субъективно у меня складывается ощущение, что многое делается с задачей уменьшения требуемых ресурсов. То есть не полгода тренировать нейронку на кластере GPU, а нечто более приземленное.

Мультимодальные модели - это модели, работающие с несколькими типами данных, или модальностями. Картинки, текст, звук, видео - это разные модальности, и приемы-архитектуры нейронок должны быть адаптированы для них. Один из самых простых примеров мультимодальности - это ответ на вопрос по картинке: в каком городе находится достопримечательность (и картинка) ? что надето на человеке справа? И так далее.

Основная проблема в том, что нужно связывать два разных сигнала, от изображения и текста. Подходы давно существуют, работают неплохо, но зачастую требуют длительного обучения большиииииих моделек, чтобы "выровнять" их, или связать - то есть чтобы текстовая модель понимала сигнал от картиночной и наоборот.

Господа из Salesforce предложили переиспользовать существующие модели, замораживая их веса во время обучения (то есть не считая по ним градиенты и не изменяя), а между ними обучать маленькую сетку, которая формирует запросы (в прямом и переносном смысле) от одной модели к другой (на прикрепленном изображении это Q-former). Получается, что обучать нужно совсем мало - а метрики выходят лучше, чем у текущего State-of-the-Art подхода.
Подход просто гениален в своей простоте и изящности)

💨 Статья тут, веса и код здесь, коллаб имеется - можно зайти поиграться со своими картинками.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/41
Create:
Last Update:

Вчера вышла интересная статья от ребят из Salesforce. Когда-то для меня было удивлением, что у них вообще есть отдел исследований искусственного интеллекта, ведь их основной бизнес - это SaaS CRM-система (по простому, система управления взаимоотношениями с клиентами по модели предоставления готового ПО). У них даже тикер на бирже CRM, хех 🤔

Так вот, они то и дело выпускают неплохие работы по Large Language Models и мультимодальным моделям, причём субъективно у меня складывается ощущение, что многое делается с задачей уменьшения требуемых ресурсов. То есть не полгода тренировать нейронку на кластере GPU, а нечто более приземленное.

Мультимодальные модели - это модели, работающие с несколькими типами данных, или модальностями. Картинки, текст, звук, видео - это разные модальности, и приемы-архитектуры нейронок должны быть адаптированы для них. Один из самых простых примеров мультимодальности - это ответ на вопрос по картинке: в каком городе находится достопримечательность (и картинка) ? что надето на человеке справа? И так далее.

Основная проблема в том, что нужно связывать два разных сигнала, от изображения и текста. Подходы давно существуют, работают неплохо, но зачастую требуют длительного обучения большиииииих моделек, чтобы "выровнять" их, или связать - то есть чтобы текстовая модель понимала сигнал от картиночной и наоборот.

Господа из Salesforce предложили переиспользовать существующие модели, замораживая их веса во время обучения (то есть не считая по ним градиенты и не изменяя), а между ними обучать маленькую сетку, которая формирует запросы (в прямом и переносном смысле) от одной модели к другой (на прикрепленном изображении это Q-former). Получается, что обучать нужно совсем мало - а метрики выходят лучше, чем у текущего State-of-the-Art подхода.
Подход просто гениален в своей простоте и изящности)

💨 Статья тут, веса и код здесь, коллаб имеется - можно зайти поиграться со своими картинками.

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/41

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. In 2014, Pavel Durov fled the country after allies of the Kremlin took control of the social networking site most know just as VK. Russia's intelligence agency had asked Durov to turn over the data of anti-Kremlin protesters. Durov refused to do so. The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. For tech stocks, “the main thing is yields,” Essaye said.
from tr


Telegram Сиолошная
FROM American