Telegram Group & Telegram Channel
Тесты тестов

Задача: вычитать и проверить набор из 150+ тестовых вопросов по математике и программированию не самого легкого уровня.

Прорешать все тесты, вычитать – дорогое муторное  занятие. При этом тесты заказчику должны быть сданы без каких-либо ошибок!

ИИ может дать быструю содержательную обратную связь. Для этого сохраняем документ в pdf (так лучше считаются формулы, если нет tex / markdown), просим пошагово пройтись отдельно по каждому вопросу, самостоятельно ответить на него, проверить правильность вариантов ответов. По возможности лучше разбить файл на несколько небольших и обрабатывать их отдельно. Также рекомендуется один и тот же файл прогнать несколько раз, можно как с одной моделью, так и с разными (мы в основном все делаем с gpt o3 или gemini 2.5). 

На выходе получаем отчет по каждому вопросу. На практике таким образом удалось отловить несколько опечаток и 3 реальные ошибки на раннем этапе проверки тестов. Пока что обязательно все равно делается ручная проверка 2-3 разными проверяющими, чтобы отловить сложность вопросов, четкость формулировок и тд. 

Для полноценного внедрения и реальной экономической пользы пока что не хватает уверенности в точности и полноте ИИ – нужно разработать качественный валидационный тест и на нем отладить систему проверки тестов. Про оценку систем на основе LLM писали здесь.



group-telegram.com/experiment_ai/68
Create:
Last Update:

Тесты тестов

Задача: вычитать и проверить набор из 150+ тестовых вопросов по математике и программированию не самого легкого уровня.

Прорешать все тесты, вычитать – дорогое муторное  занятие. При этом тесты заказчику должны быть сданы без каких-либо ошибок!

ИИ может дать быструю содержательную обратную связь. Для этого сохраняем документ в pdf (так лучше считаются формулы, если нет tex / markdown), просим пошагово пройтись отдельно по каждому вопросу, самостоятельно ответить на него, проверить правильность вариантов ответов. По возможности лучше разбить файл на несколько небольших и обрабатывать их отдельно. Также рекомендуется один и тот же файл прогнать несколько раз, можно как с одной моделью, так и с разными (мы в основном все делаем с gpt o3 или gemini 2.5). 

На выходе получаем отчет по каждому вопросу. На практике таким образом удалось отловить несколько опечаток и 3 реальные ошибки на раннем этапе проверки тестов. Пока что обязательно все равно делается ручная проверка 2-3 разными проверяющими, чтобы отловить сложность вопросов, четкость формулировок и тд. 

Для полноценного внедрения и реальной экономической пользы пока что не хватает уверенности в точности и полноте ИИ – нужно разработать качественный валидационный тест и на нем отладить систему проверки тестов. Про оценку систем на основе LLM писали здесь.

BY Эксперименты с ИИ


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/experiment_ai/68

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. Some privacy experts say Telegram is not secure enough These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise.
from us


Telegram Эксперименты с ИИ
FROM American