group-telegram.com/begtin/6392
Last Update:
Свежий документ Data Governance in Open Source AI [1] от Open Source Initiative про то как публиковать данные для обучения ИИ с открытым кодом. В документе много всего, важно что они промоутируют отход от чистого определения Open Data и говорят о новом (старом) подходе Data Commons с разными моделями доступа к данным.
Дословно в тексте упоминаются, привожу как есть:
- Open data: data that is freely accessible, usable and shareable without restrictions, typically
under an open license or in the Public Domain36 (for example, OpenStreetMap data);
• Public data: data that is accessible to anyone without authentication or special permissions
(for example, Common Crawl data). Note that this data can degrade as web content
becomes unavailable;
• Obtainable data: data that can be obtained or acquired through specific actions, such as
licensing deals, subscriptions or permissions (for example, ImageNet data);
• Unshareable non-public data: data that is confidential or protected by privacy laws,
agreements or proprietary rights and cannot be legally shared or publicly distributed.
С точки зрения многих в открытых данных всё это звучит как размывание открытости, но с точки зрения практики ИИ в этом есть логика.
Ссылки:
[1] https://opensource.org/blog/reimagining-data-for-open-source-ai-a-call-to-action
#opendata #data #readings
BY Ivan Begtin
Share with your friend now:
group-telegram.com/begtin/6392