group-telegram.com/ai_newz/3678
Last Update:
Прогресс по VLM
В то время как LLM бенчи насыщаются довольно быстро, прогресс по VLM, которые требует мультимодального ризонинга (то есть нужно понимать что-то по картинке) идет не так бодро.
На графике приведен бенчмарк MMMU (Massive Multi-Discipline Multimodal Understanding and Reasoning Benchmark) — это тест для оценки знаний и логического мышления на уровне младших курсов бакалавриата в шести ключевых дисциплинах. Он проверяет, насколько хорошо система понимает и анализирует информацию из разных областей, используя текст, изображения и другие форматы данных (таблицы, например). Тест измеряет не просто запоминание фактов, а способность делать выводы и решать сложные задачи.
Китайцы и тут хорошо колбасят в опенсорс! Из открытых моделей, на этом бенче в лидерах сейчас как раз китайцы: InternVL2.5-78B (ее на графике нет) и QVQ-72B-Preview / Qwen2.5-VL-72B (этой тоже на графике нет).
@ai_newz
BY эйай ньюз
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/V40bhc5S04Cl7OcLa877nJgX-9XmJSJ2OOMmGGJRPKCPmiyFM2bcQdcjVZQPV7xHRt9rpiMqg6mhE5IpHX6qI4q7fADqEHyKemUQE0fyJxIFFew_meHswO8ehqWrvgYW_fxMqvNWqwnd0iHoiHKDxn0rbGkZnPSYxqy2RUq_Ib0maTNCtTIubUoVlki4yR8GkTlatVweiWTy5cvw50W2xwkoPhr2mbNvmhxTTSq9G-qKQxNofW3EcaYuf7ifyBvTYeOCBRPrc9HQe7jqYNU-EW44X-kX7pckFhiUfZVs3A-OLJi5rOgdMwQ7dzda57AMM0BzBwxWis7UIEiLD6ciWw.jpg)
Share with your friend now:
group-telegram.com/ai_newz/3678