Про эксперименты с автоматизированным документированием датасетов, вот живой пример документирования связки DuckDB + LLM. На вход файл в формате Parquet, можно увидеть его содержимое. На выходе таблица с размеченными колонками. Некоторые LLM дают очень хороший результат с описанием колонок на основе их названия с пониманием контекста и расшифровкой полей в зависимости от контекста который LLM тоже понимает.
Осталось дообогатить таблицу семантическим типом данных и добавить генерацию документации. На вход был файл дампа Единого структурированного справочника-каталога лекарственных препаратов (ЕСКЛП), а на выходе его описание.
Осталось понять сделать ли это отдельным инструментом или встроить в ранее созданные утилиты undatum или metacrafter которые тут пересекаются
#datadocumentation #dataengineering #datatools
Осталось дообогатить таблицу семантическим типом данных и добавить генерацию документации. На вход был файл дампа Единого структурированного справочника-каталога лекарственных препаратов (ЕСКЛП), а на выходе его описание.
Осталось понять сделать ли это отдельным инструментом или встроить в ранее созданные утилиты undatum или metacrafter которые тут пересекаются
#datadocumentation #dataengineering #datatools
group-telegram.com/begtin/6444
Create:
Last Update:
Last Update:
Про эксперименты с автоматизированным документированием датасетов, вот живой пример документирования связки DuckDB + LLM. На вход файл в формате Parquet, можно увидеть его содержимое. На выходе таблица с размеченными колонками. Некоторые LLM дают очень хороший результат с описанием колонок на основе их названия с пониманием контекста и расшифровкой полей в зависимости от контекста который LLM тоже понимает.
Осталось дообогатить таблицу семантическим типом данных и добавить генерацию документации. На вход был файл дампа Единого структурированного справочника-каталога лекарственных препаратов (ЕСКЛП), а на выходе его описание.
Осталось понять сделать ли это отдельным инструментом или встроить в ранее созданные утилиты undatum или metacrafter которые тут пересекаются
#datadocumentation #dataengineering #datatools
Осталось дообогатить таблицу семантическим типом данных и добавить генерацию документации. На вход был файл дампа Единого структурированного справочника-каталога лекарственных препаратов (ЕСКЛП), а на выходе его описание.
Осталось понять сделать ли это отдельным инструментом или встроить в ранее созданные утилиты undatum или metacrafter которые тут пересекаются
#datadocumentation #dataengineering #datatools
BY Ivan Begtin
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/v9HAqGdI37lyQ8gqlYzv_ZE8E1uGoBC30uh_8HFLFcxGnVeX6FSi4PqUmW670sfJa1oItzblWxsBMP6kBErQ8km7NX7wAAnBorncZFP7z4rXVaHj4O15mvikBYzsfNzGyT7orelLCsfOiD3exqMpSSqE0D8bBz96E-7ycJMuwt44cqQRcTOpMnlUq-RyR784Bc9NkPmWfLjrkR1SapB9BTeNSCQ0xtjLgKS64iKLBC_cPN8uR4EcibxxtfZzTrzK5ZRh9-0k7sV3sh1xndIDKeZ6mO9KQsY90PwHjwx810mkuCx9hggX2wKrrTSY6netzu927p1rO63CCfdfy5CL-g.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/AVhbtyNw3n02FXSsA05MJbAT7YBNd-QEbEAYgi4NdsNrAsV_j9RBUtt0KItNgDNPfjRMrO62wAtvXFSbvdJMDrJuvSe4Z_OTWfyT1ukzcS9_KzIhpv_7jVFoxtHPfk_RGLiJAEPPjaRv53x7DHcVxnkv--81GMDBhocf90aBWL5sRSC6sVqmAZHxv7Mx11Q4nIZIwGDnxvRViiNYqBZiL6LCyVTmurs2_71KfMUMIrLkSfxxghPLUuo6JAccC33ihD593INfRUPrcZg_RTV08R5rXV-WXdQpbf94NRKMoLHIo7Up5lZeNcdsyLpGvW0MhM6BrZ819swrvT4-wKPBEA.jpg)
Share with your friend now:
group-telegram.com/begtin/6444