Telegram Group & Telegram Channel
Тесты тестов

Задача: вычитать и проверить набор из 150+ тестовых вопросов по математике и программированию не самого легкого уровня.

Прорешать все тесты, вычитать – дорогое муторное  занятие. При этом тесты заказчику должны быть сданы без каких-либо ошибок!

ИИ может дать быструю содержательную обратную связь. Для этого сохраняем документ в pdf (так лучше считаются формулы, если нет tex / markdown), просим пошагово пройтись отдельно по каждому вопросу, самостоятельно ответить на него, проверить правильность вариантов ответов. По возможности лучше разбить файл на несколько небольших и обрабатывать их отдельно. Также рекомендуется один и тот же файл прогнать несколько раз, можно как с одной моделью, так и с разными (мы в основном все делаем с gpt o3 или gemini 2.5). 

На выходе получаем отчет по каждому вопросу. На практике таким образом удалось отловить несколько опечаток и 3 реальные ошибки на раннем этапе проверки тестов. Пока что обязательно все равно делается ручная проверка 2-3 разными проверяющими, чтобы отловить сложность вопросов, четкость формулировок и тд. 

Для полноценного внедрения и реальной экономической пользы пока что не хватает уверенности в точности и полноте ИИ – нужно разработать качественный валидационный тест и на нем отладить систему проверки тестов. Про оценку систем на основе LLM писали здесь.



group-telegram.com/experiment_ai/68
Create:
Last Update:

Тесты тестов

Задача: вычитать и проверить набор из 150+ тестовых вопросов по математике и программированию не самого легкого уровня.

Прорешать все тесты, вычитать – дорогое муторное  занятие. При этом тесты заказчику должны быть сданы без каких-либо ошибок!

ИИ может дать быструю содержательную обратную связь. Для этого сохраняем документ в pdf (так лучше считаются формулы, если нет tex / markdown), просим пошагово пройтись отдельно по каждому вопросу, самостоятельно ответить на него, проверить правильность вариантов ответов. По возможности лучше разбить файл на несколько небольших и обрабатывать их отдельно. Также рекомендуется один и тот же файл прогнать несколько раз, можно как с одной моделью, так и с разными (мы в основном все делаем с gpt o3 или gemini 2.5). 

На выходе получаем отчет по каждому вопросу. На практике таким образом удалось отловить несколько опечаток и 3 реальные ошибки на раннем этапе проверки тестов. Пока что обязательно все равно делается ручная проверка 2-3 разными проверяющими, чтобы отловить сложность вопросов, четкость формулировок и тд. 

Для полноценного внедрения и реальной экономической пользы пока что не хватает уверенности в точности и полноте ИИ – нужно разработать качественный валидационный тест и на нем отладить систему проверки тестов. Про оценку систем на основе LLM писали здесь.

BY Эксперименты с ИИ


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/experiment_ai/68

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." Telegram Messenger Blocks Navalny Bot During Russian Election This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment.
from us


Telegram Эксперименты с ИИ
FROM American