Telegram Group & Telegram Channel
Поисковики с ChatGPT и Gemini, новые релизы от Anthropic, открытые модели для генерации видео

Рассказываем, что произошло в мире ИИ за последние две недели.

Новинки от Anthropic


Компания Anthropic, главный конкурент OpenAI, представила новые версии своей средней и малой моделей — Claude Sonnet и Haiku. Новый Claude Sonnet 3.5 в основных тестах показывает себя лучше своего предшественника. Особенно сильно улучшилась генерация кода — в ней модель стала новым лидером на рынке.

Миниатюрная Haiku 3.5 также показала заметный прогресс относительно прошлой версии и сравнима с GPT-4o mini, однако уступает недавно обновлённой Gemini Flash от Google.

Компания также показала новый сценарий использования своих языковых моделей — Computer use. В этом режиме пользователь ставит перед моделью задачу и предоставляет ей доступ к компьютеру. Модель поэтапно выполняет задание, ориентируясь по скриншотам и взаимодействуя с интерфейсом, как человек: кликая по элементам, вводя текст и так далее.

Computer use можно применять для автоматизации рутинных операций на компьютере, например, заполнения простых отчётов или тестирования программ на наличие ошибок. Подобное использование LLM исследовалось ранее, однако Anthropic стала первой компанией, которая представила готовое коммерческое решение.

Генерация видео для всех

Стали доступны две нейросети, способные генерировать видео по текстовым описаниям: Mochi 1 от компании Genmo и Allegro от Rhymes AI. Обе модели могут быть использованы как для исследовательских целей, так и для коммерческого использования.

Сегодня Mochi 1 — самая большая открытая моделью для генерации видео. Всего в ней 10 млрд параметров, она способна генерировать видео с качеством 480p длиной до 5,4 секунд, 30 кадров в секунду.

Allegro более компактная — более чем в три раза меньше Mochi 1. Модель может генерировать видео с качеством 720p длиной до шести секунд, 15 кадров в секунду.

Бум развития моделей для генерации видео произошёл после релиза модели Sora, представленной OpenAI ещё в марте. О том, как работает Sora, вы можете узнать в нашем материале. После выхода модели от OpenAI уже несколько компаний успели представить свои решения.

LLM + поиск = ?

OpenAI выпустила ChatGPT Search — поисковую систему, интегрированную с ChatGPT. ChatGPT Search ищет необходимую информацию в интернете и использует её, чтобы ответить на вопрос пользователя. Например, можно спросить у модели, где поужинать сегодня вечером, или попросить сделать сводку по определённой теме. Система не лишена недостатков обычного ChatGPT — она подвержена галлюцинациям.

Google также предоставила доступ к своей языковой модели Gemini, способной искать информацию в Google. Это позволит пользователям получать более актуальные и релевантные ответы на свои запросы.

Идея комбинации поисковых систем и языковых моделей не нова: Google уже пыталась встроить ИИ в поиск. Про галлюцинации и механизм генерации, дополненной поиском, мы рассказывали в нашей статье про RAG (Retrieval Augmented Generation).

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/sysblok/1065
Create:
Last Update:

Поисковики с ChatGPT и Gemini, новые релизы от Anthropic, открытые модели для генерации видео

Рассказываем, что произошло в мире ИИ за последние две недели.

Новинки от Anthropic


Компания Anthropic, главный конкурент OpenAI, представила новые версии своей средней и малой моделей — Claude Sonnet и Haiku. Новый Claude Sonnet 3.5 в основных тестах показывает себя лучше своего предшественника. Особенно сильно улучшилась генерация кода — в ней модель стала новым лидером на рынке.

Миниатюрная Haiku 3.5 также показала заметный прогресс относительно прошлой версии и сравнима с GPT-4o mini, однако уступает недавно обновлённой Gemini Flash от Google.

Компания также показала новый сценарий использования своих языковых моделей — Computer use. В этом режиме пользователь ставит перед моделью задачу и предоставляет ей доступ к компьютеру. Модель поэтапно выполняет задание, ориентируясь по скриншотам и взаимодействуя с интерфейсом, как человек: кликая по элементам, вводя текст и так далее.

Computer use можно применять для автоматизации рутинных операций на компьютере, например, заполнения простых отчётов или тестирования программ на наличие ошибок. Подобное использование LLM исследовалось ранее, однако Anthropic стала первой компанией, которая представила готовое коммерческое решение.

Генерация видео для всех

Стали доступны две нейросети, способные генерировать видео по текстовым описаниям: Mochi 1 от компании Genmo и Allegro от Rhymes AI. Обе модели могут быть использованы как для исследовательских целей, так и для коммерческого использования.

Сегодня Mochi 1 — самая большая открытая моделью для генерации видео. Всего в ней 10 млрд параметров, она способна генерировать видео с качеством 480p длиной до 5,4 секунд, 30 кадров в секунду.

Allegro более компактная — более чем в три раза меньше Mochi 1. Модель может генерировать видео с качеством 720p длиной до шести секунд, 15 кадров в секунду.

Бум развития моделей для генерации видео произошёл после релиза модели Sora, представленной OpenAI ещё в марте. О том, как работает Sora, вы можете узнать в нашем материале. После выхода модели от OpenAI уже несколько компаний успели представить свои решения.

LLM + поиск = ?

OpenAI выпустила ChatGPT Search — поисковую систему, интегрированную с ChatGPT. ChatGPT Search ищет необходимую информацию в интернете и использует её, чтобы ответить на вопрос пользователя. Например, можно спросить у модели, где поужинать сегодня вечером, или попросить сделать сводку по определённой теме. Система не лишена недостатков обычного ChatGPT — она подвержена галлюцинациям.

Google также предоставила доступ к своей языковой модели Gemini, способной искать информацию в Google. Это позволит пользователям получать более актуальные и релевантные ответы на свои запросы.

Идея комбинации поисковых систем и языковых моделей не нова: Google уже пыталась встроить ИИ в поиск. Про галлюцинации и механизм генерации, дополненной поиском, мы рассказывали в нашей статье про RAG (Retrieval Augmented Generation).

🤖 «Системный Блокъ» @sysblok

BY Системный Блокъ


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/sysblok/1065

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences.
from ar


Telegram Системный Блокъ
FROM American