Telegram Group & Telegram Channel
Поисковики с ChatGPT и Gemini, новые релизы от Anthropic, открытые модели для генерации видео

Рассказываем, что произошло в мире ИИ за последние две недели.

Новинки от Anthropic


Компания Anthropic, главный конкурент OpenAI, представила новые версии своей средней и малой моделей — Claude Sonnet и Haiku. Новый Claude Sonnet 3.5 в основных тестах показывает себя лучше своего предшественника. Особенно сильно улучшилась генерация кода — в ней модель стала новым лидером на рынке.

Миниатюрная Haiku 3.5 также показала заметный прогресс относительно прошлой версии и сравнима с GPT-4o mini, однако уступает недавно обновлённой Gemini Flash от Google.

Компания также показала новый сценарий использования своих языковых моделей — Computer use. В этом режиме пользователь ставит перед моделью задачу и предоставляет ей доступ к компьютеру. Модель поэтапно выполняет задание, ориентируясь по скриншотам и взаимодействуя с интерфейсом, как человек: кликая по элементам, вводя текст и так далее.

Computer use можно применять для автоматизации рутинных операций на компьютере, например, заполнения простых отчётов или тестирования программ на наличие ошибок. Подобное использование LLM исследовалось ранее, однако Anthropic стала первой компанией, которая представила готовое коммерческое решение.

Генерация видео для всех

Стали доступны две нейросети, способные генерировать видео по текстовым описаниям: Mochi 1 от компании Genmo и Allegro от Rhymes AI. Обе модели могут быть использованы как для исследовательских целей, так и для коммерческого использования.

Сегодня Mochi 1 — самая большая открытая моделью для генерации видео. Всего в ней 10 млрд параметров, она способна генерировать видео с качеством 480p длиной до 5,4 секунд, 30 кадров в секунду.

Allegro более компактная — более чем в три раза меньше Mochi 1. Модель может генерировать видео с качеством 720p длиной до шести секунд, 15 кадров в секунду.

Бум развития моделей для генерации видео произошёл после релиза модели Sora, представленной OpenAI ещё в марте. О том, как работает Sora, вы можете узнать в нашем материале. После выхода модели от OpenAI уже несколько компаний успели представить свои решения.

LLM + поиск = ?

OpenAI выпустила ChatGPT Search — поисковую систему, интегрированную с ChatGPT. ChatGPT Search ищет необходимую информацию в интернете и использует её, чтобы ответить на вопрос пользователя. Например, можно спросить у модели, где поужинать сегодня вечером, или попросить сделать сводку по определённой теме. Система не лишена недостатков обычного ChatGPT — она подвержена галлюцинациям.

Google также предоставила доступ к своей языковой модели Gemini, способной искать информацию в Google. Это позволит пользователям получать более актуальные и релевантные ответы на свои запросы.

Идея комбинации поисковых систем и языковых моделей не нова: Google уже пыталась встроить ИИ в поиск. Про галлюцинации и механизм генерации, дополненной поиском, мы рассказывали в нашей статье про RAG (Retrieval Augmented Generation).

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/sysblok/1065
Create:
Last Update:

Поисковики с ChatGPT и Gemini, новые релизы от Anthropic, открытые модели для генерации видео

Рассказываем, что произошло в мире ИИ за последние две недели.

Новинки от Anthropic


Компания Anthropic, главный конкурент OpenAI, представила новые версии своей средней и малой моделей — Claude Sonnet и Haiku. Новый Claude Sonnet 3.5 в основных тестах показывает себя лучше своего предшественника. Особенно сильно улучшилась генерация кода — в ней модель стала новым лидером на рынке.

Миниатюрная Haiku 3.5 также показала заметный прогресс относительно прошлой версии и сравнима с GPT-4o mini, однако уступает недавно обновлённой Gemini Flash от Google.

Компания также показала новый сценарий использования своих языковых моделей — Computer use. В этом режиме пользователь ставит перед моделью задачу и предоставляет ей доступ к компьютеру. Модель поэтапно выполняет задание, ориентируясь по скриншотам и взаимодействуя с интерфейсом, как человек: кликая по элементам, вводя текст и так далее.

Computer use можно применять для автоматизации рутинных операций на компьютере, например, заполнения простых отчётов или тестирования программ на наличие ошибок. Подобное использование LLM исследовалось ранее, однако Anthropic стала первой компанией, которая представила готовое коммерческое решение.

Генерация видео для всех

Стали доступны две нейросети, способные генерировать видео по текстовым описаниям: Mochi 1 от компании Genmo и Allegro от Rhymes AI. Обе модели могут быть использованы как для исследовательских целей, так и для коммерческого использования.

Сегодня Mochi 1 — самая большая открытая моделью для генерации видео. Всего в ней 10 млрд параметров, она способна генерировать видео с качеством 480p длиной до 5,4 секунд, 30 кадров в секунду.

Allegro более компактная — более чем в три раза меньше Mochi 1. Модель может генерировать видео с качеством 720p длиной до шести секунд, 15 кадров в секунду.

Бум развития моделей для генерации видео произошёл после релиза модели Sora, представленной OpenAI ещё в марте. О том, как работает Sora, вы можете узнать в нашем материале. После выхода модели от OpenAI уже несколько компаний успели представить свои решения.

LLM + поиск = ?

OpenAI выпустила ChatGPT Search — поисковую систему, интегрированную с ChatGPT. ChatGPT Search ищет необходимую информацию в интернете и использует её, чтобы ответить на вопрос пользователя. Например, можно спросить у модели, где поужинать сегодня вечером, или попросить сделать сводку по определённой теме. Система не лишена недостатков обычного ChatGPT — она подвержена галлюцинациям.

Google также предоставила доступ к своей языковой модели Gemini, способной искать информацию в Google. Это позволит пользователям получать более актуальные и релевантные ответы на свои запросы.

Идея комбинации поисковых систем и языковых моделей не нова: Google уже пыталась встроить ИИ в поиск. Про галлюцинации и механизм генерации, дополненной поиском, мы рассказывали в нашей статье про RAG (Retrieval Augmented Generation).

🤖 «Системный Блокъ» @sysblok

BY Системный Блокъ


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/sysblok/1065

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels.
from tw


Telegram Системный Блокъ
FROM American