group-telegram.com/begtin/6254
Last Update:
Я тут задумался над тем какие практические инструменты с LLM внутри я использую в работе и для чего хотелось бы использовать ещё. Хотелось бы, для многого конечно, но не всё ещё существует
Самое очевидное это переписывание текстов с помощью DeepL Write. Очень удобно для переписке и публикаций не на родном языке, поскольку сильно выправляет текст. Похоже на Grammarly, но ощущение что итоговый текст гораздо лучше и поддерживается не только английский язык. Главный минус пока только в том что поддерживаются только 8 языков. В любом случае очень удобно для публикации в англоязычных и других соцсетях
Совсем не такое очевидное, но важное для меня это сбор информации о дата каталогах. Это довольно специфическая лично моя задача по обновлению реестра каталогов данных в Dateno. Этот процесс на текущей стадии ручной, поскольку автоматизированный ранее собранных каталогов уже выполнен и оставшаяся часть работы - это ручная разметка. В частности вручную проставляется инфа по каталогу данных:
- название
- описание
- название владельца
- тип владельца (гос-во, муниципалитет, ученые и тд.)
- тематики
- теги
А также простановка геопривязки для тех ресурсов у которых её нет или если выясняется что они уровня регионов.
Это много ручной работы напрямую влияющей на качество данных в Dateno, поскольку тип владельца, геопривязки и тематики идут в фасеты поиска, а остальные поля отображаются в карточках датасетов.
Оказалось что Perplexity отлично выдаёт ответы на такие вопросы как:
- Who owns <> website ?
- About what this website is <> ?
А также, что очень практически удобно, Perplexity умеет точно отвечать на такие вопросы как "What is ISO3166-2 code of the Magallanes and Chilean Antarctica ?" и выдавать точный код.
Скорее всего Perplexity можно заменить на другую модель, но и текущие результаты вполне полезны.
Сейчас в Dateno около 18% (3.4 миллиона) наборов данных не имеют пометки типа владельца данных, а 2.4 миллиона не имеют привязки к стране/территории.
Это, в любом случае лучше чем у Google Dataset Search, но всё ещё недостаточно хорошо.
Применение LLM в повышении качества метаданных кажется очень реалистичной задачей.
#ai #thoughts #dateno #datasets #data
BY Ivan Begtin
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/begtin/6254