Telegram Group & Telegram Channel
Вчера вышла интересная статья от ребят из Salesforce. Когда-то для меня было удивлением, что у них вообще есть отдел исследований искусственного интеллекта, ведь их основной бизнес - это SaaS CRM-система (по простому, система управления взаимоотношениями с клиентами по модели предоставления готового ПО). У них даже тикер на бирже CRM, хех 🤔

Так вот, они то и дело выпускают неплохие работы по Large Language Models и мультимодальным моделям, причём субъективно у меня складывается ощущение, что многое делается с задачей уменьшения требуемых ресурсов. То есть не полгода тренировать нейронку на кластере GPU, а нечто более приземленное.

Мультимодальные модели - это модели, работающие с несколькими типами данных, или модальностями. Картинки, текст, звук, видео - это разные модальности, и приемы-архитектуры нейронок должны быть адаптированы для них. Один из самых простых примеров мультимодальности - это ответ на вопрос по картинке: в каком городе находится достопримечательность (и картинка) ? что надето на человеке справа? И так далее.

Основная проблема в том, что нужно связывать два разных сигнала, от изображения и текста. Подходы давно существуют, работают неплохо, но зачастую требуют длительного обучения большиииииих моделек, чтобы "выровнять" их, или связать - то есть чтобы текстовая модель понимала сигнал от картиночной и наоборот.

Господа из Salesforce предложили переиспользовать существующие модели, замораживая их веса во время обучения (то есть не считая по ним градиенты и не изменяя), а между ними обучать маленькую сетку, которая формирует запросы (в прямом и переносном смысле) от одной модели к другой (на прикрепленном изображении это Q-former). Получается, что обучать нужно совсем мало - а метрики выходят лучше, чем у текущего State-of-the-Art подхода.
Подход просто гениален в своей простоте и изящности)

💨 Статья тут, веса и код здесь, коллаб имеется - можно зайти поиграться со своими картинками.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/41
Create:
Last Update:

Вчера вышла интересная статья от ребят из Salesforce. Когда-то для меня было удивлением, что у них вообще есть отдел исследований искусственного интеллекта, ведь их основной бизнес - это SaaS CRM-система (по простому, система управления взаимоотношениями с клиентами по модели предоставления готового ПО). У них даже тикер на бирже CRM, хех 🤔

Так вот, они то и дело выпускают неплохие работы по Large Language Models и мультимодальным моделям, причём субъективно у меня складывается ощущение, что многое делается с задачей уменьшения требуемых ресурсов. То есть не полгода тренировать нейронку на кластере GPU, а нечто более приземленное.

Мультимодальные модели - это модели, работающие с несколькими типами данных, или модальностями. Картинки, текст, звук, видео - это разные модальности, и приемы-архитектуры нейронок должны быть адаптированы для них. Один из самых простых примеров мультимодальности - это ответ на вопрос по картинке: в каком городе находится достопримечательность (и картинка) ? что надето на человеке справа? И так далее.

Основная проблема в том, что нужно связывать два разных сигнала, от изображения и текста. Подходы давно существуют, работают неплохо, но зачастую требуют длительного обучения большиииииих моделек, чтобы "выровнять" их, или связать - то есть чтобы текстовая модель понимала сигнал от картиночной и наоборот.

Господа из Salesforce предложили переиспользовать существующие модели, замораживая их веса во время обучения (то есть не считая по ним градиенты и не изменяя), а между ними обучать маленькую сетку, которая формирует запросы (в прямом и переносном смысле) от одной модели к другой (на прикрепленном изображении это Q-former). Получается, что обучать нужно совсем мало - а метрики выходят лучше, чем у текущего State-of-the-Art подхода.
Подход просто гениален в своей простоте и изящности)

💨 Статья тут, веса и код здесь, коллаб имеется - можно зайти поиграться со своими картинками.

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/41

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications.
from tw


Telegram Сиолошная
FROM American