Telegram Group & Telegram Channel
Как оценить AI-модель

Второй и последний пост про AI на этой неделе. Вот здесь - первый про UX. Если хотите больше про AI в продукте - ставьте огонечки! 🔥

Есть несколько основных способов оценить, насколько хорошо работает AI модель:
1. Оценка человеком
2. Автоматическая оценка кодом
3. Фидбек от юзеров

Автоматическую оценку кодом пока опустим, фидбек от юзеров - вещь полезная, но перед тем, как катить на юзеров, нужно понять самим, не будет ли наш AI посылать куда подальше.

Итого - оценка человеком.

В общем подход здесь такой: нужно представить, что вы оцениваете эссе. Каждое из них уникально как и результаты модели, но при этом должны быть критерии оценки, чтобы а) можно было справедливо оценить б) делегировать потом оценку другим.

Шаги, которые нужно сделать, чтобы составить критерии для оценки, на иллюстрации. В идеале у вас должна появиться таблица, в которой будет -дцать вопросов формата да / нет, а также с оценкой от 1 до 5.

Поначалу с ее помощью тестит результат продакт, а дальше можно нанять тестировщиков.

Примеры вопросов для AI-ассистента Google, который помогает пользователям гугла в случае проблем. Пару покажу без спойлера, остальные - под спойлером, чтобы вы могли подумать и раскрыть их для проверки.

"Ассистент систематически обращается к пользователю по имени" - да / нет

"Ассистент предоставил пользователю больше ценности за меньшее время, чем если бы пользователь сделал это сам" - оценка по шкале от 1 до 5

"Ассистент завершил задачу пользователя до конца" - да / нет

"Ассистент следил за выполнением задачи пользователя и уточнял её статус" - да / нет

"Ассистент предоставил пользователю качественные варианты" - оценка по шкале от 1 до 5


#PG_education



group-telegram.com/productgames/1052
Create:
Last Update:

Как оценить AI-модель

Второй и последний пост про AI на этой неделе. Вот здесь - первый про UX. Если хотите больше про AI в продукте - ставьте огонечки! 🔥

Есть несколько основных способов оценить, насколько хорошо работает AI модель:
1. Оценка человеком
2. Автоматическая оценка кодом
3. Фидбек от юзеров

Автоматическую оценку кодом пока опустим, фидбек от юзеров - вещь полезная, но перед тем, как катить на юзеров, нужно понять самим, не будет ли наш AI посылать куда подальше.

Итого - оценка человеком.

В общем подход здесь такой: нужно представить, что вы оцениваете эссе. Каждое из них уникально как и результаты модели, но при этом должны быть критерии оценки, чтобы а) можно было справедливо оценить б) делегировать потом оценку другим.

Шаги, которые нужно сделать, чтобы составить критерии для оценки, на иллюстрации. В идеале у вас должна появиться таблица, в которой будет -дцать вопросов формата да / нет, а также с оценкой от 1 до 5.

Поначалу с ее помощью тестит результат продакт, а дальше можно нанять тестировщиков.

Примеры вопросов для AI-ассистента Google, который помогает пользователям гугла в случае проблем. Пару покажу без спойлера, остальные - под спойлером, чтобы вы могли подумать и раскрыть их для проверки.

"Ассистент систематически обращается к пользователю по имени" - да / нет

"Ассистент предоставил пользователю больше ценности за меньшее время, чем если бы пользователь сделал это сам" - оценка по шкале от 1 до 5

"Ассистент завершил задачу пользователя до конца" - да / нет

"Ассистент следил за выполнением задачи пользователя и уточнял её статус" - да / нет

"Ассистент предоставил пользователю качественные варианты" - оценка по шкале от 1 до 5


#PG_education

BY Product games с Кристиной Гусевой




Share with your friend now:
group-telegram.com/productgames/1052

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp.
from us


Telegram Product games с Кристиной Гусевой
FROM American