Telegram Group & Telegram Channel
Как оценить AI-модель

Второй и последний пост про AI на этой неделе. Вот здесь - первый про UX. Если хотите больше про AI в продукте - ставьте огонечки! 🔥

Есть несколько основных способов оценить, насколько хорошо работает AI модель:
1. Оценка человеком
2. Автоматическая оценка кодом
3. Фидбек от юзеров

Автоматическую оценку кодом пока опустим, фидбек от юзеров - вещь полезная, но перед тем, как катить на юзеров, нужно понять самим, не будет ли наш AI посылать куда подальше.

Итого - оценка человеком.

В общем подход здесь такой: нужно представить, что вы оцениваете эссе. Каждое из них уникально как и результаты модели, но при этом должны быть критерии оценки, чтобы а) можно было справедливо оценить б) делегировать потом оценку другим.

Шаги, которые нужно сделать, чтобы составить критерии для оценки, на иллюстрации. В идеале у вас должна появиться таблица, в которой будет -дцать вопросов формата да / нет, а также с оценкой от 1 до 5.

Поначалу с ее помощью тестит результат продакт, а дальше можно нанять тестировщиков.

Примеры вопросов для AI-ассистента Google, который помогает пользователям гугла в случае проблем. Пару покажу без спойлера, остальные - под спойлером, чтобы вы могли подумать и раскрыть их для проверки.

"Ассистент систематически обращается к пользователю по имени" - да / нет

"Ассистент предоставил пользователю больше ценности за меньшее время, чем если бы пользователь сделал это сам" - оценка по шкале от 1 до 5

"Ассистент завершил задачу пользователя до конца" - да / нет

"Ассистент следил за выполнением задачи пользователя и уточнял её статус" - да / нет

"Ассистент предоставил пользователю качественные варианты" - оценка по шкале от 1 до 5


#PG_education



group-telegram.com/productgames/1052
Create:
Last Update:

Как оценить AI-модель

Второй и последний пост про AI на этой неделе. Вот здесь - первый про UX. Если хотите больше про AI в продукте - ставьте огонечки! 🔥

Есть несколько основных способов оценить, насколько хорошо работает AI модель:
1. Оценка человеком
2. Автоматическая оценка кодом
3. Фидбек от юзеров

Автоматическую оценку кодом пока опустим, фидбек от юзеров - вещь полезная, но перед тем, как катить на юзеров, нужно понять самим, не будет ли наш AI посылать куда подальше.

Итого - оценка человеком.

В общем подход здесь такой: нужно представить, что вы оцениваете эссе. Каждое из них уникально как и результаты модели, но при этом должны быть критерии оценки, чтобы а) можно было справедливо оценить б) делегировать потом оценку другим.

Шаги, которые нужно сделать, чтобы составить критерии для оценки, на иллюстрации. В идеале у вас должна появиться таблица, в которой будет -дцать вопросов формата да / нет, а также с оценкой от 1 до 5.

Поначалу с ее помощью тестит результат продакт, а дальше можно нанять тестировщиков.

Примеры вопросов для AI-ассистента Google, который помогает пользователям гугла в случае проблем. Пару покажу без спойлера, остальные - под спойлером, чтобы вы могли подумать и раскрыть их для проверки.

"Ассистент систематически обращается к пользователю по имени" - да / нет

"Ассистент предоставил пользователю больше ценности за меньшее время, чем если бы пользователь сделал это сам" - оценка по шкале от 1 до 5

"Ассистент завершил задачу пользователя до конца" - да / нет

"Ассистент следил за выполнением задачи пользователя и уточнял её статус" - да / нет

"Ассистент предоставил пользователю качественные варианты" - оценка по шкале от 1 до 5


#PG_education

BY Product games с Кристиной Гусевой




Share with your friend now:
group-telegram.com/productgames/1052

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

For tech stocks, “the main thing is yields,” Essaye said. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns
from ua


Telegram Product games с Кристиной Гусевой
FROM American