Telegram Group & Telegram Channel
Я тут задумался над тем какие практические инструменты с LLM внутри я использую в работе и для чего хотелось бы использовать ещё. Хотелось бы, для многого конечно, но не всё ещё существует

Самое очевидное это переписывание текстов с помощью DeepL Write. Очень удобно для переписке и публикаций не на родном языке, поскольку сильно выправляет текст. Похоже на Grammarly, но ощущение что итоговый текст гораздо лучше и поддерживается не только английский язык. Главный минус пока только в том что поддерживаются только 8 языков. В любом случае очень удобно для публикации в англоязычных и других соцсетях

Совсем не такое очевидное, но важное для меня это сбор информации о дата каталогах. Это довольно специфическая лично моя задача по обновлению реестра каталогов данных в Dateno. Этот процесс на текущей стадии ручной, поскольку автоматизированный ранее собранных каталогов уже выполнен и оставшаяся часть работы - это ручная разметка. В частности вручную проставляется инфа по каталогу данных:
- название
- описание
- название владельца
- тип владельца (гос-во, муниципалитет, ученые и тд.)
- тематики
- теги

А также простановка геопривязки для тех ресурсов у которых её нет или если выясняется что они уровня регионов.

Это много ручной работы напрямую влияющей на качество данных в Dateno, поскольку тип владельца, геопривязки и тематики идут в фасеты поиска, а остальные поля отображаются в карточках датасетов.

Оказалось что Perplexity отлично выдаёт ответы на такие вопросы как:
- Who owns <> website ?
- About what this website is <> ?

А также, что очень практически удобно, Perplexity умеет точно отвечать на такие вопросы как "What is ISO3166-2 code of the Magallanes and Chilean Antarctica ?" и выдавать точный код.

Скорее всего Perplexity можно заменить на другую модель, но и текущие результаты вполне полезны.

Сейчас в Dateno около 18% (3.4 миллиона) наборов данных не имеют пометки типа владельца данных, а 2.4 миллиона не имеют привязки к стране/территории.

Это, в любом случае лучше чем у Google Dataset Search, но всё ещё недостаточно хорошо.

Применение LLM в повышении качества метаданных кажется очень реалистичной задачей.

#ai #thoughts #dateno #datasets #data



group-telegram.com/begtin/6254
Create:
Last Update:

Я тут задумался над тем какие практические инструменты с LLM внутри я использую в работе и для чего хотелось бы использовать ещё. Хотелось бы, для многого конечно, но не всё ещё существует

Самое очевидное это переписывание текстов с помощью DeepL Write. Очень удобно для переписке и публикаций не на родном языке, поскольку сильно выправляет текст. Похоже на Grammarly, но ощущение что итоговый текст гораздо лучше и поддерживается не только английский язык. Главный минус пока только в том что поддерживаются только 8 языков. В любом случае очень удобно для публикации в англоязычных и других соцсетях

Совсем не такое очевидное, но важное для меня это сбор информации о дата каталогах. Это довольно специфическая лично моя задача по обновлению реестра каталогов данных в Dateno. Этот процесс на текущей стадии ручной, поскольку автоматизированный ранее собранных каталогов уже выполнен и оставшаяся часть работы - это ручная разметка. В частности вручную проставляется инфа по каталогу данных:
- название
- описание
- название владельца
- тип владельца (гос-во, муниципалитет, ученые и тд.)
- тематики
- теги

А также простановка геопривязки для тех ресурсов у которых её нет или если выясняется что они уровня регионов.

Это много ручной работы напрямую влияющей на качество данных в Dateno, поскольку тип владельца, геопривязки и тематики идут в фасеты поиска, а остальные поля отображаются в карточках датасетов.

Оказалось что Perplexity отлично выдаёт ответы на такие вопросы как:
- Who owns <> website ?
- About what this website is <> ?

А также, что очень практически удобно, Perplexity умеет точно отвечать на такие вопросы как "What is ISO3166-2 code of the Magallanes and Chilean Antarctica ?" и выдавать точный код.

Скорее всего Perplexity можно заменить на другую модель, но и текущие результаты вполне полезны.

Сейчас в Dateno около 18% (3.4 миллиона) наборов данных не имеют пометки типа владельца данных, а 2.4 миллиона не имеют привязки к стране/территории.

Это, в любом случае лучше чем у Google Dataset Search, но всё ещё недостаточно хорошо.

Применение LLM в повышении качества метаданных кажется очень реалистичной задачей.

#ai #thoughts #dateno #datasets #data

BY Ivan Begtin


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/6254

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." Anastasia Vlasova/Getty Images Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday.
from pl


Telegram Ivan Begtin
FROM American