Telegram Group & Telegram Channel
В издании The Information часто публикуются инсайды о планах на будущее и внутренней кухне OpenAI и Google. В последнее время было много слухов про Gemini — модель следующего поколения от Google, которая отличается, как минимум, тем, что является мультимодальной.

"Мультимодальный" значит то, что модель работает с несколькими модальностями: текст, изображения, быть может даже видео и аудио. Но мультимодальность можно сделать по разному. Есть вариант "для бедных", который давно гуляет в опенсурсе — это когда мы берем две модели (картиночная и LLM) и дообучаем маленькую прослойку между ними, чтобы переводить изображение в аналог "текста", но на языке, понятном LLM (там сплошные цифры, человеку ничего не понять, да и не нужно). Чуть более подробно и технически писал выше в канале.

Но в таком случае получается, что LLM на самом деле не получает большого количества информации из других модальностей, их по сути просто "пришивают сбоку". А вот если модель сразу учить понимать всё, чтобы можно было и понимание окружающего мира расширить, и навыки размышлений и отслеживания причинно-следственных связей улучшить — это может существенно повлиять на качество в лучшую сторону.

И вот сейчас, как указано в новости, OpenAI хочет постараться опередить Google на этом поле, выпустив еще более мощную мультимодальную модель под кодовым названием Gobi. В отличие от GPT-4, Gobi с самого начала проектировалась и обучалась как мультимодальная модель. Однако в новости упоминается, что "не похоже, что тренировку Gobi уже начали". Так что как эта модель может выйти раньше Gemini (запланированной на осень 2023го) — не ясно.

Интересующийся читатель спросит: а почему [по крайней мере у OpenAI] так много времени занимает разработка и выкатка новой модели, где "всего лишь" можно добавить картинки? В статье указывается, что в основном это связано с опасениями по поводу новых функций и их использования злоумышленниками, например, для выдачи себя за людей путем автоматического решения капчи или отслеживания людей с помощью распознавания лиц. Но инженеры OpenAI, похоже, близки к разрешению юридических проблем, связанных с новой технологией.

Будем смотреть, чем порадуют компании до конца года.



group-telegram.com/seeallochnaya/631
Create:
Last Update:

В издании The Information часто публикуются инсайды о планах на будущее и внутренней кухне OpenAI и Google. В последнее время было много слухов про Gemini — модель следующего поколения от Google, которая отличается, как минимум, тем, что является мультимодальной.

"Мультимодальный" значит то, что модель работает с несколькими модальностями: текст, изображения, быть может даже видео и аудио. Но мультимодальность можно сделать по разному. Есть вариант "для бедных", который давно гуляет в опенсурсе — это когда мы берем две модели (картиночная и LLM) и дообучаем маленькую прослойку между ними, чтобы переводить изображение в аналог "текста", но на языке, понятном LLM (там сплошные цифры, человеку ничего не понять, да и не нужно). Чуть более подробно и технически писал выше в канале.

Но в таком случае получается, что LLM на самом деле не получает большого количества информации из других модальностей, их по сути просто "пришивают сбоку". А вот если модель сразу учить понимать всё, чтобы можно было и понимание окружающего мира расширить, и навыки размышлений и отслеживания причинно-следственных связей улучшить — это может существенно повлиять на качество в лучшую сторону.

И вот сейчас, как указано в новости, OpenAI хочет постараться опередить Google на этом поле, выпустив еще более мощную мультимодальную модель под кодовым названием Gobi. В отличие от GPT-4, Gobi с самого начала проектировалась и обучалась как мультимодальная модель. Однако в новости упоминается, что "не похоже, что тренировку Gobi уже начали". Так что как эта модель может выйти раньше Gemini (запланированной на осень 2023го) — не ясно.

Интересующийся читатель спросит: а почему [по крайней мере у OpenAI] так много времени занимает разработка и выкатка новой модели, где "всего лишь" можно добавить картинки? В статье указывается, что в основном это связано с опасениями по поводу новых функций и их использования злоумышленниками, например, для выдачи себя за людей путем автоматического решения капчи или отслеживания людей с помощью распознавания лиц. Но инженеры OpenAI, похоже, близки к разрешению юридических проблем, связанных с новой технологией.

Будем смотреть, чем порадуют компании до конца года.

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/631

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War." Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. Despite Telegram's origins, its approach to users' security has privacy advocates worried.
from jp


Telegram Сиолошная
FROM American