Telegram Group & Telegram Channel
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Microsoft только что выпустила впечатляющий инструмент - OmniParser V2, который может превратить любого LLM в агента, способного использовать компьютер.

Он решает две ключевые проблемы GUI-автоматизации:

- Обнаружение интерактивных элементов.
Традиционно LLM испытывают трудности с определением мелких иконок и других элементов пользовательского интерфейса. OmniParser V2 «токенизирует» скриншоты – переводит изображение экрана из пиксельного пространства в структурированные данные, представляющие интерактивные объекты.

Понимание семантики интерфейса.
Инструмент структурирует информацию так, чтобы LLM могли проводить поиск по элементам и предсказывать следующее действие на основе полученной информации.

Плюсы OmniParser V2
- Повышенная точность:
Благодаря обучению на большем объеме данных для обнаружения интерактивных элементов и функциональных описаний иконок, OmniParser V2 существенно улучшает точность даже для очень маленьких элементов по сравнению с предыдущей версией .

Сокращение задержки:
- Оптимизация размера изображения в модели описания иконок позволила снизить задержку на 60% по сравнению с предыдущей версией, что делает его более оперативным в реальном времени.

Гибкость и интеграция:
- OmniParser V2 легко интегрируется с современными LLM, такими как GPT-4o, DeepSeek, Qwen и Anthropic Sonnet. Это позволяет комбинировать распознавание интерфейса, планирование действий и их исполнение в одном конвейере.

Поддержка тестов через OmniTool:
- Для быстрого тестирования различных настроек агентов разработана платформа OmniTool – docker-решение на базе Windows, содержащее все необходимые инструменты для экспериментов.

Минусы и ограничения
- Требования к техническим навыкам:
Для развертывания и интеграции OmniParser V2 требуется определённый уровень технической подготовки, особенно если вы планируете экспериментировать с настройками через OmniTool.

Ограничения в безопасности:
- Из соображений ответственного использования (Responsible AI), рекомендуется применять OmniParser V2 только к скриншотам, не содержащим чувствительной или личной информации. Это помогает минимизировать риски утечки данных , .

Исследовательская стадия:
На данный момент инструмент ориентирован на исследовательские и экспериментальные задачи, и его коммерческое использование может требовать доработок или адаптации под конкретные задачи.

Как пользоваться OmniParser V2:

Развертывание через OmniTool:
Для упрощения экспериментов Microsoft разработала OmniTool – dockerизированную систему на базе Windows. Запустив OmniTool, вы получите преднастроенную среду, в которой OmniParser V2 может работать с различными LLM.

Подготовка скриншотов:
Сделайте скриншоты пользовательского интерфейса, которые хотите автоматизировать. OmniParser V2 обработает изображение, преобразовав его в структурированные данные, где каждому интерактивному элементу будет присвоен уникальный токен.

Интеграция с LLM:
Передайте полученные данные выбранной языковой модели. LLM, получив «токенизированный» интерфейс, сможет проводить retrieval-based next action prediction, то есть предсказывать следующее действие пользователя на основе распознанных элементов.

Исполнение действий:
После того как LLM определит, какое действие следует выполнить (например, нажатие на кнопку или выбор меню), система может автоматизированно выполнить это действие в графическом интерфейсе.

OmniParser V2 существенно расширяет возможности LLM, превращая их в эффективных агентов для работы с графическими интерфейсами.

GitHubhttps://github.com/microsoft/OmniParser/tree/master

Official blog post https://microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/

Hugging Facehttps://huggingface.co/microsoft/OmniParser-v2.0

@data_analysis_ml



group-telegram.com/data_analysis_ml/3198
Create:
Last Update:

🔥 Microsoft только что выпустила впечатляющий инструмент - OmniParser V2, который может превратить любого LLM в агента, способного использовать компьютер.

Он решает две ключевые проблемы GUI-автоматизации:

- Обнаружение интерактивных элементов.
Традиционно LLM испытывают трудности с определением мелких иконок и других элементов пользовательского интерфейса. OmniParser V2 «токенизирует» скриншоты – переводит изображение экрана из пиксельного пространства в структурированные данные, представляющие интерактивные объекты.

Понимание семантики интерфейса.
Инструмент структурирует информацию так, чтобы LLM могли проводить поиск по элементам и предсказывать следующее действие на основе полученной информации.

Плюсы OmniParser V2
- Повышенная точность:
Благодаря обучению на большем объеме данных для обнаружения интерактивных элементов и функциональных описаний иконок, OmniParser V2 существенно улучшает точность даже для очень маленьких элементов по сравнению с предыдущей версией .

Сокращение задержки:
- Оптимизация размера изображения в модели описания иконок позволила снизить задержку на 60% по сравнению с предыдущей версией, что делает его более оперативным в реальном времени.

Гибкость и интеграция:
- OmniParser V2 легко интегрируется с современными LLM, такими как GPT-4o, DeepSeek, Qwen и Anthropic Sonnet. Это позволяет комбинировать распознавание интерфейса, планирование действий и их исполнение в одном конвейере.

Поддержка тестов через OmniTool:
- Для быстрого тестирования различных настроек агентов разработана платформа OmniTool – docker-решение на базе Windows, содержащее все необходимые инструменты для экспериментов.

Минусы и ограничения
- Требования к техническим навыкам:
Для развертывания и интеграции OmniParser V2 требуется определённый уровень технической подготовки, особенно если вы планируете экспериментировать с настройками через OmniTool.

Ограничения в безопасности:
- Из соображений ответственного использования (Responsible AI), рекомендуется применять OmniParser V2 только к скриншотам, не содержащим чувствительной или личной информации. Это помогает минимизировать риски утечки данных , .

Исследовательская стадия:
На данный момент инструмент ориентирован на исследовательские и экспериментальные задачи, и его коммерческое использование может требовать доработок или адаптации под конкретные задачи.

Как пользоваться OmniParser V2:

Развертывание через OmniTool:
Для упрощения экспериментов Microsoft разработала OmniTool – dockerизированную систему на базе Windows. Запустив OmniTool, вы получите преднастроенную среду, в которой OmniParser V2 может работать с различными LLM.

Подготовка скриншотов:
Сделайте скриншоты пользовательского интерфейса, которые хотите автоматизировать. OmniParser V2 обработает изображение, преобразовав его в структурированные данные, где каждому интерактивному элементу будет присвоен уникальный токен.

Интеграция с LLM:
Передайте полученные данные выбранной языковой модели. LLM, получив «токенизированный» интерфейс, сможет проводить retrieval-based next action prediction, то есть предсказывать следующее действие пользователя на основе распознанных элементов.

Исполнение действий:
После того как LLM определит, какое действие следует выполнить (например, нажатие на кнопку или выбор меню), система может автоматизированно выполнить это действие в графическом интерфейсе.

OmniParser V2 существенно расширяет возможности LLM, превращая их в эффективных агентов для работы с графическими интерфейсами.

GitHubhttps://github.com/microsoft/OmniParser/tree/master

Official blog post https://microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/

Hugging Facehttps://huggingface.co/microsoft/OmniParser-v2.0

@data_analysis_ml

BY Анализ данных (Data analysis)


Share with your friend now:
group-telegram.com/data_analysis_ml/3198

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives?
from us


Telegram Анализ данных (Data analysis)
FROM American