Про эксперименты с автоматизированным документированием датасетов, вот живой пример документирования связки DuckDB + LLM. На вход файл в формате Parquet, можно увидеть его содержимое. На выходе таблица с размеченными колонками. Некоторые LLM дают очень хороший результат с описанием колонок на основе их названия с пониманием контекста и расшифровкой полей в зависимости от контекста который LLM тоже понимает.
Осталось дообогатить таблицу семантическим типом данных и добавить генерацию документации. На вход был файл дампа Единого структурированного справочника-каталога лекарственных препаратов (ЕСКЛП), а на выходе его описание.
Осталось понять сделать ли это отдельным инструментом или встроить в ранее созданные утилиты undatum или metacrafter которые тут пересекаются
#datadocumentation #dataengineering #datatools
Осталось дообогатить таблицу семантическим типом данных и добавить генерацию документации. На вход был файл дампа Единого структурированного справочника-каталога лекарственных препаратов (ЕСКЛП), а на выходе его описание.
Осталось понять сделать ли это отдельным инструментом или встроить в ранее созданные утилиты undatum или metacrafter которые тут пересекаются
#datadocumentation #dataengineering #datatools
group-telegram.com/begtin/6445
Create:
Last Update:
Last Update:
Про эксперименты с автоматизированным документированием датасетов, вот живой пример документирования связки DuckDB + LLM. На вход файл в формате Parquet, можно увидеть его содержимое. На выходе таблица с размеченными колонками. Некоторые LLM дают очень хороший результат с описанием колонок на основе их названия с пониманием контекста и расшифровкой полей в зависимости от контекста который LLM тоже понимает.
Осталось дообогатить таблицу семантическим типом данных и добавить генерацию документации. На вход был файл дампа Единого структурированного справочника-каталога лекарственных препаратов (ЕСКЛП), а на выходе его описание.
Осталось понять сделать ли это отдельным инструментом или встроить в ранее созданные утилиты undatum или metacrafter которые тут пересекаются
#datadocumentation #dataengineering #datatools
Осталось дообогатить таблицу семантическим типом данных и добавить генерацию документации. На вход был файл дампа Единого структурированного справочника-каталога лекарственных препаратов (ЕСКЛП), а на выходе его описание.
Осталось понять сделать ли это отдельным инструментом или встроить в ранее созданные утилиты undatum или metacrafter которые тут пересекаются
#datadocumentation #dataengineering #datatools
BY Ivan Begtin
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/TKaXaUQpueorQZweczYRKNrKEcyaHI2-KCjRssHNSzJ4ElAbp6kGC6KEZL2r1l5qQDvFRAhXDgn_e7e9VR89xsjWRlnjFAxeK6j-Rjm2_xHvu71QzV7MEDWJL2F7IgMPHr7stbHgZD8fN2Q2UwD5V7VOeUeHh9T02IE-B5SxwIvOcKFCtmUf0vmkW7ffv223MrMZ_PV6p99l4vY3dfPN5ZhR-bYBaQ9fHwpvASBYknJYpOUSWDOhqQ1Qw3pixtirUMXVeqzpbmKYgG0N3lmDvRgsdKB7QsRuMp5xK_44Q45N7vDFs961n8ZG6E0FuwxS2LKjjOXdpak1klj0Baw5wA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/NLu6iMj_CPL_V-QI4Gk1MynQ61JCWGy8oM6VyLtY8nQPhlHE4i-tsOz22SGsE0kDteCIu74PlSBr6e-u1fsJ8fLYjIL4igwiHlj9RQwYt2FmrGsdqcNERfFveBFCLaf7ubUPoz8Vj3LD72vBNz2YNi3eCAypfKw6dTwRhPdpaNHB0wc8m1DRzZLPZWhgw5BFVzsNo0FK8PNJH-YLMjJN9Am1J8C4BS1lezNDNXQ9rXZISZ1wy1xfd5nZxi2N27dEBEvOpR0V9-ZGzG9NwSxIyNm7eTMLRAamVnaKcBL2prF2WGCko_GNpMtfSNVc3D1i-iiVn3vtGWoec8OvOdGzjw.jpg)
Share with your friend now:
group-telegram.com/begtin/6445