Telegram Group & Telegram Channel
🔥Molmo: Outperforming Proprietary Multimodal Language Models

Приношу вам самый сок. Кажется, это самый лучший доклад за сегодня.

За два часа до релиза Llama 3.2 челы выложили семейство открытых моделей Molmo (и нет, это не совпадение):
- 1B
- 7B
- 72B

По качеству на визуальных задачах Molmo выдаёт +- перформанс как Llama 3.2: где-то лучше, где-то хуже, и приближается к GPT-4o.

- Но, пре-трейн модель они делали всего на 700k размеченных парах картинка-текст (PixMo-Cap). В то время как Llama тренили на 6 млрд!
- Использовали в 9000 раз меньше данных, но гораздо более высокого качества.
- Люди не любят печатать, люди любят говорить. Поэтому разметчиков просили не печатать описание картинки, а описывать её ГОЛОСОМ 60-90 секунд. Далее запись автоматически переводили в текст. Это гораздо эффективнее, проще и помогает быстро собрать очень длинные и детальные описания картинок.
- Дополнительно разметчиков просили тыкать точками на объекты, про которые они говорят. Это помогло научить модель связывать пиксели с текстом, выдавая точки на картинке, когда она описывает какой-то объект.

Все это очень сильно подняло качество модели. Это прям крутые идеи.

По архитектуре ничего необычного – transformer с late fusion. То есть токены картинок пропускаются через обучаемый коннектор, а затем кормятся в LLM.

Трейн в два стейджа, ничего не замораживая:
(1) multimodal pre-training для генерации описаний на новом датасете – 700k картинок; (2) supervised fine-tuning на instruction-датасете, который они тоже собрали сами (там и точки на картинках, и документы, прочие задачи) – тут около 1.9 млн картинок (возможно, пересекается с претрейн-датасетом).

Трейн и эвал код и датасет (PixMo) выложат в течение 2 месяцев – я им верю!

Блогпост про модели
Arxiv

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/3275
Create:
Last Update:

🔥Molmo: Outperforming Proprietary Multimodal Language Models

Приношу вам самый сок. Кажется, это самый лучший доклад за сегодня.

За два часа до релиза Llama 3.2 челы выложили семейство открытых моделей Molmo (и нет, это не совпадение):
- 1B
- 7B
- 72B

По качеству на визуальных задачах Molmo выдаёт +- перформанс как Llama 3.2: где-то лучше, где-то хуже, и приближается к GPT-4o.

- Но, пре-трейн модель они делали всего на 700k размеченных парах картинка-текст (PixMo-Cap). В то время как Llama тренили на 6 млрд!
- Использовали в 9000 раз меньше данных, но гораздо более высокого качества.
- Люди не любят печатать, люди любят говорить. Поэтому разметчиков просили не печатать описание картинки, а описывать её ГОЛОСОМ 60-90 секунд. Далее запись автоматически переводили в текст. Это гораздо эффективнее, проще и помогает быстро собрать очень длинные и детальные описания картинок.
- Дополнительно разметчиков просили тыкать точками на объекты, про которые они говорят. Это помогло научить модель связывать пиксели с текстом, выдавая точки на картинке, когда она описывает какой-то объект.

Все это очень сильно подняло качество модели. Это прям крутые идеи.

По архитектуре ничего необычного – transformer с late fusion. То есть токены картинок пропускаются через обучаемый коннектор, а затем кормятся в LLM.

Трейн в два стейджа, ничего не замораживая:
(1) multimodal pre-training для генерации описаний на новом датасете – 700k картинок; (2) supervised fine-tuning на instruction-датасете, который они тоже собрали сами (там и точки на картинках, и документы, прочие задачи) – тут около 1.9 млн картинок (возможно, пересекается с претрейн-датасетом).

Трейн и эвал код и датасет (PixMo) выложат в течение 2 месяцев – я им верю!

Блогпост про модели
Arxiv

@ai_newz

BY эйай ньюз













Share with your friend now:
group-telegram.com/ai_newz/3275

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Some privacy experts say Telegram is not secure enough A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. In 2018, Russia banned Telegram although it reversed the prohibition two years later. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare.
from ye


Telegram эйай ньюз
FROM American