Telegram Group & Telegram Channel
Поисковики с ChatGPT и Gemini, новые релизы от Anthropic, открытые модели для генерации видео

Рассказываем, что произошло в мире ИИ за последние две недели.

Новинки от Anthropic


Компания Anthropic, главный конкурент OpenAI, представила новые версии своей средней и малой моделей — Claude Sonnet и Haiku. Новый Claude Sonnet 3.5 в основных тестах показывает себя лучше своего предшественника. Особенно сильно улучшилась генерация кода — в ней модель стала новым лидером на рынке.

Миниатюрная Haiku 3.5 также показала заметный прогресс относительно прошлой версии и сравнима с GPT-4o mini, однако уступает недавно обновлённой Gemini Flash от Google.

Компания также показала новый сценарий использования своих языковых моделей — Computer use. В этом режиме пользователь ставит перед моделью задачу и предоставляет ей доступ к компьютеру. Модель поэтапно выполняет задание, ориентируясь по скриншотам и взаимодействуя с интерфейсом, как человек: кликая по элементам, вводя текст и так далее.

Computer use можно применять для автоматизации рутинных операций на компьютере, например, заполнения простых отчётов или тестирования программ на наличие ошибок. Подобное использование LLM исследовалось ранее, однако Anthropic стала первой компанией, которая представила готовое коммерческое решение.

Генерация видео для всех

Стали доступны две нейросети, способные генерировать видео по текстовым описаниям: Mochi 1 от компании Genmo и Allegro от Rhymes AI. Обе модели могут быть использованы как для исследовательских целей, так и для коммерческого использования.

Сегодня Mochi 1 — самая большая открытая моделью для генерации видео. Всего в ней 10 млрд параметров, она способна генерировать видео с качеством 480p длиной до 5,4 секунд, 30 кадров в секунду.

Allegro более компактная — более чем в три раза меньше Mochi 1. Модель может генерировать видео с качеством 720p длиной до шести секунд, 15 кадров в секунду.

Бум развития моделей для генерации видео произошёл после релиза модели Sora, представленной OpenAI ещё в марте. О том, как работает Sora, вы можете узнать в нашем материале. После выхода модели от OpenAI уже несколько компаний успели представить свои решения.

LLM + поиск = ?

OpenAI выпустила ChatGPT Search — поисковую систему, интегрированную с ChatGPT. ChatGPT Search ищет необходимую информацию в интернете и использует её, чтобы ответить на вопрос пользователя. Например, можно спросить у модели, где поужинать сегодня вечером, или попросить сделать сводку по определённой теме. Система не лишена недостатков обычного ChatGPT — она подвержена галлюцинациям.

Google также предоставила доступ к своей языковой модели Gemini, способной искать информацию в Google. Это позволит пользователям получать более актуальные и релевантные ответы на свои запросы.

Идея комбинации поисковых систем и языковых моделей не нова: Google уже пыталась встроить ИИ в поиск. Про галлюцинации и механизм генерации, дополненной поиском, мы рассказывали в нашей статье про RAG (Retrieval Augmented Generation).

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/sysblok/1065
Create:
Last Update:

Поисковики с ChatGPT и Gemini, новые релизы от Anthropic, открытые модели для генерации видео

Рассказываем, что произошло в мире ИИ за последние две недели.

Новинки от Anthropic


Компания Anthropic, главный конкурент OpenAI, представила новые версии своей средней и малой моделей — Claude Sonnet и Haiku. Новый Claude Sonnet 3.5 в основных тестах показывает себя лучше своего предшественника. Особенно сильно улучшилась генерация кода — в ней модель стала новым лидером на рынке.

Миниатюрная Haiku 3.5 также показала заметный прогресс относительно прошлой версии и сравнима с GPT-4o mini, однако уступает недавно обновлённой Gemini Flash от Google.

Компания также показала новый сценарий использования своих языковых моделей — Computer use. В этом режиме пользователь ставит перед моделью задачу и предоставляет ей доступ к компьютеру. Модель поэтапно выполняет задание, ориентируясь по скриншотам и взаимодействуя с интерфейсом, как человек: кликая по элементам, вводя текст и так далее.

Computer use можно применять для автоматизации рутинных операций на компьютере, например, заполнения простых отчётов или тестирования программ на наличие ошибок. Подобное использование LLM исследовалось ранее, однако Anthropic стала первой компанией, которая представила готовое коммерческое решение.

Генерация видео для всех

Стали доступны две нейросети, способные генерировать видео по текстовым описаниям: Mochi 1 от компании Genmo и Allegro от Rhymes AI. Обе модели могут быть использованы как для исследовательских целей, так и для коммерческого использования.

Сегодня Mochi 1 — самая большая открытая моделью для генерации видео. Всего в ней 10 млрд параметров, она способна генерировать видео с качеством 480p длиной до 5,4 секунд, 30 кадров в секунду.

Allegro более компактная — более чем в три раза меньше Mochi 1. Модель может генерировать видео с качеством 720p длиной до шести секунд, 15 кадров в секунду.

Бум развития моделей для генерации видео произошёл после релиза модели Sora, представленной OpenAI ещё в марте. О том, как работает Sora, вы можете узнать в нашем материале. После выхода модели от OpenAI уже несколько компаний успели представить свои решения.

LLM + поиск = ?

OpenAI выпустила ChatGPT Search — поисковую систему, интегрированную с ChatGPT. ChatGPT Search ищет необходимую информацию в интернете и использует её, чтобы ответить на вопрос пользователя. Например, можно спросить у модели, где поужинать сегодня вечером, или попросить сделать сводку по определённой теме. Система не лишена недостатков обычного ChatGPT — она подвержена галлюцинациям.

Google также предоставила доступ к своей языковой модели Gemini, способной искать информацию в Google. Это позволит пользователям получать более актуальные и релевантные ответы на свои запросы.

Идея комбинации поисковых систем и языковых моделей не нова: Google уже пыталась встроить ИИ в поиск. Про галлюцинации и механизм генерации, дополненной поиском, мы рассказывали в нашей статье про RAG (Retrieval Augmented Generation).

🤖 «Системный Блокъ» @sysblok

BY Системный Блокъ


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/sysblok/1065

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted.
from de


Telegram Системный Блокъ
FROM American