Про эксперименты с автоматизированным документированием датасетов, вот живой пример документирования связки DuckDB + LLM. На вход файл в формате Parquet, можно увидеть его содержимое. На выходе таблица с размеченными колонками. Некоторые LLM дают очень хороший результат с описанием колонок на основе их названия с пониманием контекста и расшифровкой полей в зависимости от контекста который LLM тоже понимает.
Осталось дообогатить таблицу семантическим типом данных и добавить генерацию документации. На вход был файл дампа Единого структурированного справочника-каталога лекарственных препаратов (ЕСКЛП), а на выходе его описание.
Осталось понять сделать ли это отдельным инструментом или встроить в ранее созданные утилиты undatum или metacrafter которые тут пересекаются
#datadocumentation #dataengineering #datatools
Осталось дообогатить таблицу семантическим типом данных и добавить генерацию документации. На вход был файл дампа Единого структурированного справочника-каталога лекарственных препаратов (ЕСКЛП), а на выходе его описание.
Осталось понять сделать ли это отдельным инструментом или встроить в ранее созданные утилиты undatum или metacrafter которые тут пересекаются
#datadocumentation #dataengineering #datatools
group-telegram.com/begtin/6445
Create:
Last Update:
Last Update:
Про эксперименты с автоматизированным документированием датасетов, вот живой пример документирования связки DuckDB + LLM. На вход файл в формате Parquet, можно увидеть его содержимое. На выходе таблица с размеченными колонками. Некоторые LLM дают очень хороший результат с описанием колонок на основе их названия с пониманием контекста и расшифровкой полей в зависимости от контекста который LLM тоже понимает.
Осталось дообогатить таблицу семантическим типом данных и добавить генерацию документации. На вход был файл дампа Единого структурированного справочника-каталога лекарственных препаратов (ЕСКЛП), а на выходе его описание.
Осталось понять сделать ли это отдельным инструментом или встроить в ранее созданные утилиты undatum или metacrafter которые тут пересекаются
#datadocumentation #dataengineering #datatools
Осталось дообогатить таблицу семантическим типом данных и добавить генерацию документации. На вход был файл дампа Единого структурированного справочника-каталога лекарственных препаратов (ЕСКЛП), а на выходе его описание.
Осталось понять сделать ли это отдельным инструментом или встроить в ранее созданные утилиты undatum или metacrafter которые тут пересекаются
#datadocumentation #dataengineering #datatools
BY Ivan Begtin
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/UQFV3iy6UsH8N_co1edAXzGmLpJ_YK5ZIWIkufYTLF8Q18bg2cA3W8JI0Lv02L4ojBjteJOhYKb4ADyOmca6PkEAIKfyboTxMEoi7JXsYGM1bNTXwKJE_z7LbMUH_CwEa8oNk710VZp6QWmWa7xWaSnTYmgcz20q31KSp8YKygg8LpHPsO0Gg98uXfxQXnvwuAeNP_35h47_RGKo_hMHYLDKE1VuBrK7MZ6_a5vp4giKQn-yo0lo3G9L5UV5jLEyT1nmSrSpEwWr1662tcDo9ahFplgDIevdK__B40FWkAzyJqV-KMBdRgCuoN0BRbvqhG_P_7m4xL2GW88NWPd7Tw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/cGmTafnO06r8bK4zhUjRuB3DNxS1zqYNZKcGI13u1d9YFCKhgbJg-BXERg0LWO_vRrsaz1Gh4J-vukycH46y6XZoYo01ykQ4YGYO3ocXLgEhNE1BJ8_pB6UnV9eHxiAPdOEWqVoACm8UnjsZeLbwGQZvmjWR1dSwQ3e43g_2b9jUU84KVEagaG4O9-bwRIBOu_I95tWYj_Xo1bxh7WzbDBg60jVjEz56wy9OpZy-3o4R5IjClPRs_QwjUVD7MpDcEoZ0D1xw2MZY5a1YPGc5UDP2urE4c9YoU-GVha06eikUkh89DE4gybFyWzNIwRYQu18w1KfuwNPvTFNKStlTiQ.jpg)
Share with your friend now:
group-telegram.com/begtin/6445