group-telegram.com/begtin/6392
Last Update:
Свежий документ Data Governance in Open Source AI [1] от Open Source Initiative про то как публиковать данные для обучения ИИ с открытым кодом. В документе много всего, важно что они промоутируют отход от чистого определения Open Data и говорят о новом (старом) подходе Data Commons с разными моделями доступа к данным.
Дословно в тексте упоминаются, привожу как есть:
- Open data: data that is freely accessible, usable and shareable without restrictions, typically
under an open license or in the Public Domain36 (for example, OpenStreetMap data);
• Public data: data that is accessible to anyone without authentication or special permissions
(for example, Common Crawl data). Note that this data can degrade as web content
becomes unavailable;
• Obtainable data: data that can be obtained or acquired through specific actions, such as
licensing deals, subscriptions or permissions (for example, ImageNet data);
• Unshareable non-public data: data that is confidential or protected by privacy laws,
agreements or proprietary rights and cannot be legally shared or publicly distributed.
С точки зрения многих в открытых данных всё это звучит как размывание открытости, но с точки зрения практики ИИ в этом есть логика.
Ссылки:
[1] https://opensource.org/blog/reimagining-data-for-open-source-ai-a-call-to-action
#opendata #data #readings
BY Ivan Begtin
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/qfcJxUhLPoTu6zdNf08mnx7BdsB2e_UtjD-hplXU6_l2dE7ONTdzKhIN2oWpdM2bupkby_mrEL4su3EgobGOMC-6Kb1wPw2E4SKJwn28XkfNlrC2m5rwNMNncSIV1pA353JemJs5LfvuQnFYk1P4WfQo4B9Oa75aWXTv_MJ6VKwDpAtbnEGWyJmx4vLn8qSPIB9BKYcJ9Zi3c6oNjWMJJ0ZEDm2u-D51WUCvv0igvJdPocXboemaoYizGrFwZMItxke_46shWP5b8cTrdYyDIPWk7iVHonxXKRdaPvwtW_Bco1t6DzPToFjIB_7-zs9EpSJk7FjARa1mNODrIW6fpg.jpg)
Share with your friend now:
group-telegram.com/begtin/6392