Telegram Group & Telegram Channel
В издании The Information часто публикуются инсайды о планах на будущее и внутренней кухне OpenAI и Google. В последнее время было много слухов про Gemini — модель следующего поколения от Google, которая отличается, как минимум, тем, что является мультимодальной.

"Мультимодальный" значит то, что модель работает с несколькими модальностями: текст, изображения, быть может даже видео и аудио. Но мультимодальность можно сделать по разному. Есть вариант "для бедных", который давно гуляет в опенсурсе — это когда мы берем две модели (картиночная и LLM) и дообучаем маленькую прослойку между ними, чтобы переводить изображение в аналог "текста", но на языке, понятном LLM (там сплошные цифры, человеку ничего не понять, да и не нужно). Чуть более подробно и технически писал выше в канале.

Но в таком случае получается, что LLM на самом деле не получает большого количества информации из других модальностей, их по сути просто "пришивают сбоку". А вот если модель сразу учить понимать всё, чтобы можно было и понимание окружающего мира расширить, и навыки размышлений и отслеживания причинно-следственных связей улучшить — это может существенно повлиять на качество в лучшую сторону.

И вот сейчас, как указано в новости, OpenAI хочет постараться опередить Google на этом поле, выпустив еще более мощную мультимодальную модель под кодовым названием Gobi. В отличие от GPT-4, Gobi с самого начала проектировалась и обучалась как мультимодальная модель. Однако в новости упоминается, что "не похоже, что тренировку Gobi уже начали". Так что как эта модель может выйти раньше Gemini (запланированной на осень 2023го) — не ясно.

Интересующийся читатель спросит: а почему [по крайней мере у OpenAI] так много времени занимает разработка и выкатка новой модели, где "всего лишь" можно добавить картинки? В статье указывается, что в основном это связано с опасениями по поводу новых функций и их использования злоумышленниками, например, для выдачи себя за людей путем автоматического решения капчи или отслеживания людей с помощью распознавания лиц. Но инженеры OpenAI, похоже, близки к разрешению юридических проблем, связанных с новой технологией.

Будем смотреть, чем порадуют компании до конца года.



group-telegram.com/seeallochnaya/631
Create:
Last Update:

В издании The Information часто публикуются инсайды о планах на будущее и внутренней кухне OpenAI и Google. В последнее время было много слухов про Gemini — модель следующего поколения от Google, которая отличается, как минимум, тем, что является мультимодальной.

"Мультимодальный" значит то, что модель работает с несколькими модальностями: текст, изображения, быть может даже видео и аудио. Но мультимодальность можно сделать по разному. Есть вариант "для бедных", который давно гуляет в опенсурсе — это когда мы берем две модели (картиночная и LLM) и дообучаем маленькую прослойку между ними, чтобы переводить изображение в аналог "текста", но на языке, понятном LLM (там сплошные цифры, человеку ничего не понять, да и не нужно). Чуть более подробно и технически писал выше в канале.

Но в таком случае получается, что LLM на самом деле не получает большого количества информации из других модальностей, их по сути просто "пришивают сбоку". А вот если модель сразу учить понимать всё, чтобы можно было и понимание окружающего мира расширить, и навыки размышлений и отслеживания причинно-следственных связей улучшить — это может существенно повлиять на качество в лучшую сторону.

И вот сейчас, как указано в новости, OpenAI хочет постараться опередить Google на этом поле, выпустив еще более мощную мультимодальную модель под кодовым названием Gobi. В отличие от GPT-4, Gobi с самого начала проектировалась и обучалась как мультимодальная модель. Однако в новости упоминается, что "не похоже, что тренировку Gobi уже начали". Так что как эта модель может выйти раньше Gemini (запланированной на осень 2023го) — не ясно.

Интересующийся читатель спросит: а почему [по крайней мере у OpenAI] так много времени занимает разработка и выкатка новой модели, где "всего лишь" можно добавить картинки? В статье указывается, что в основном это связано с опасениями по поводу новых функций и их использования злоумышленниками, например, для выдачи себя за людей путем автоматического решения капчи или отслеживания людей с помощью распознавания лиц. Но инженеры OpenAI, похоже, близки к разрешению юридических проблем, связанных с новой технологией.

Будем смотреть, чем порадуют компании до конца года.

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/631

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. He adds: "Telegram has become my primary news source." Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform.
from no


Telegram Сиолошная
FROM American