Notice: file_put_contents(): Write of 19975 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
эйай ньюз | Telegram Webview: ai_newz/3275 -
Telegram Group & Telegram Channel
🔥Molmo: Outperforming Proprietary Multimodal Language Models

Приношу вам самый сок. Кажется, это самый лучший доклад за сегодня.

За два часа до релиза Llama 3.2 челы выложили семейство открытых моделей Molmo (и нет, это не совпадение):
- 1B
- 7B
- 72B

По качеству на визуальных задачах Molmo выдаёт +- перформанс как Llama 3.2: где-то лучше, где-то хуже, и приближается к GPT-4o.

- Но, пре-трейн модель они делали всего на 700k размеченных парах картинка-текст (PixMo-Cap). В то время как Llama тренили на 6 млрд!
- Использовали в 9000 раз меньше данных, но гораздо более высокого качества.
- Люди не любят печатать, люди любят говорить. Поэтому разметчиков просили не печатать описание картинки, а описывать её ГОЛОСОМ 60-90 секунд. Далее запись автоматически переводили в текст. Это гораздо эффективнее, проще и помогает быстро собрать очень длинные и детальные описания картинок.
- Дополнительно разметчиков просили тыкать точками на объекты, про которые они говорят. Это помогло научить модель связывать пиксели с текстом, выдавая точки на картинке, когда она описывает какой-то объект.

Все это очень сильно подняло качество модели. Это прям крутые идеи.

По архитектуре ничего необычного – transformer с late fusion. То есть токены картинок пропускаются через обучаемый коннектор, а затем кормятся в LLM.

Трейн в два стейджа, ничего не замораживая:
(1) multimodal pre-training для генерации описаний на новом датасете – 700k картинок; (2) supervised fine-tuning на instruction-датасете, который они тоже собрали сами (там и точки на картинках, и документы, прочие задачи) – тут около 1.9 млн картинок (возможно, пересекается с претрейн-датасетом).

Трейн и эвал код и датасет (PixMo) выложат в течение 2 месяцев – я им верю!

Блогпост про модели
Arxiv

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/3275
Create:
Last Update:

🔥Molmo: Outperforming Proprietary Multimodal Language Models

Приношу вам самый сок. Кажется, это самый лучший доклад за сегодня.

За два часа до релиза Llama 3.2 челы выложили семейство открытых моделей Molmo (и нет, это не совпадение):
- 1B
- 7B
- 72B

По качеству на визуальных задачах Molmo выдаёт +- перформанс как Llama 3.2: где-то лучше, где-то хуже, и приближается к GPT-4o.

- Но, пре-трейн модель они делали всего на 700k размеченных парах картинка-текст (PixMo-Cap). В то время как Llama тренили на 6 млрд!
- Использовали в 9000 раз меньше данных, но гораздо более высокого качества.
- Люди не любят печатать, люди любят говорить. Поэтому разметчиков просили не печатать описание картинки, а описывать её ГОЛОСОМ 60-90 секунд. Далее запись автоматически переводили в текст. Это гораздо эффективнее, проще и помогает быстро собрать очень длинные и детальные описания картинок.
- Дополнительно разметчиков просили тыкать точками на объекты, про которые они говорят. Это помогло научить модель связывать пиксели с текстом, выдавая точки на картинке, когда она описывает какой-то объект.

Все это очень сильно подняло качество модели. Это прям крутые идеи.

По архитектуре ничего необычного – transformer с late fusion. То есть токены картинок пропускаются через обучаемый коннектор, а затем кормятся в LLM.

Трейн в два стейджа, ничего не замораживая:
(1) multimodal pre-training для генерации описаний на новом датасете – 700k картинок; (2) supervised fine-tuning на instruction-датасете, который они тоже собрали сами (там и точки на картинках, и документы, прочие задачи) – тут около 1.9 млн картинок (возможно, пересекается с претрейн-датасетом).

Трейн и эвал код и датасет (PixMo) выложат в течение 2 месяцев – я им верю!

Блогпост про модели
Arxiv

@ai_newz

BY эйай ньюз













Share with your friend now:
group-telegram.com/ai_newz/3275

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted.
from tw


Telegram эйай ньюз
FROM American