Telegram Group Search
Свежий доклад по регулированию и использованию ИИ экспертов ООН в рамках рабочей группы по правам человека. Если вкратце то выводы и рекомендации о том что права человека должны быть основным ориентиром для разработчиков и заказчик продуктов на базе ИИ и учитываться при их создании и закупке.

Документ там небольшой, 26 страниц, вот тут прямая ссылка на версию на русском языке [2], но читать документы ООН всегда очень тяжело. Их не пишут простым языком, они всегда забюрократизированы, но читать их важно, в том числе учитывать при разработке новых ИИ продуктов.

Ссылки:
[1] https://www.ohchr.org/en/documents/thematic-reports/ahrc5953-artificial-intelligence-procurement-and-deployment-ensuring
[2] https://docs.un.org/ru/A/HRC/59/53

#readings #ai #UN
На днях я решил проинвентаризировать свои презентации за 5 лет и обнаружил что у меня их какое-то чрезмерное количество и недостаточно организованное. Подумываю о том чтобы хотя бы по части из них проводить открытые вебинары (уж не знаю стоит ли делать платные вебинары, хотя иногда и выступаю на коммерческой основе).

И вот я, наконец-то, чувствую что восстановился после COVID'а, прошло много лет, но реально два года после 2020 ощущение было ослабленности сознания, потом получше, но все публичные выступления я резко сократил. Теперь ощущения сильно лучше, как минимум я перестал опасаться выступать на большую аудиторию и, помимо работы над Dateno, время от времени рассказываю о чём-то новом и старом.

Что думаете, на какие темы стоило бы провести вебинар/вебинары?

Вот список

Государство, данные и ИИ

- Применение ИИ для госсектора
- Управление основанное на данных
- Инвентаризация данных. Объекты, подходы, инструменты
- Ключевые наборы данных и их поиск и инвентаризация
- Реестры государственных систем, государственных ресурсов и НСИ
- Открытый государственный код
- Искусственный интеллект в правоохранительной системе. Миф или реальность?
- Этика работы с данными и ИИ

Дата аналитика и инженерия
- Application of neural networks for tasks of automatic identification of semantic data types
- Альтернативные данные (о показателях за пределами официальной статистики)
- Мастер классы: ищем данные, чистим и структурируем данные
- Контроль качества данных

Открытые данные
- Открытые данные в мире
- Открытые данные как основа госполитики
- Поиск данных (data discovery) для дата проектов
- Городские и гиперлокальные данные в мире
- Sharing Data for Disaster Response and Recovery Programs

Открытые API
- Открытые API. Основы
- Открытые API. Платформы и сообщества

Работа с данными для исследователей
- Практика использования DuckDB для работы с большими исследовательскими данными
- Дата инженерия в цифровой гуманитаристике
- Сервисы инфраструктуры данных для исследователей

Цифровая и веб архивация
- Практика и особенности экстренной архивации веб-ресурсов
- Введение в цифровую архивацию
- Веб-архивация
- Архивация специализированных ресурсов
- Интернет архив с точки зрения цифрового архивиста
- Национальный цифровой архив. Цифровая архивация медиа
- Цифровая архивация. Подходы и практика

Журналистика и общественный контроль
- Скрытые данные / Какие данные спрятаны в госсайтах?
- Дата-журналистика в контексте доступности источников данных
- Приватность мобильных приложений
- Слежка через государственные мобильные приложения
- О необходимости контроля и аудита ADM- систем
- Дата расследования
- Нормативная открытость
- Открытость информационных систем нормотворчества
- Простой и понятный русский язык

#thoughts #presentations
Foursquare официально анонсировали [1] SQLRooms [2]. Это инструмент для построения дашбордов в основе которого DuckDB и интегрированный AI ассистент.

Можно вживую его посмотреть в интерфейсе куда можно загрузить данные и посмотреть запросы к ним [3] и в демо AI аналитика [4]

Про SQLRooms я ранее писал, но теперь он анонсирован официально и я так понимаю что весьма активно развивается.

А ещё они следуют ровно той концепции о которой я ранее писал - Local-first [5]

Ссылки:
[1] https://medium.com/@foursquare/foursquare-introduces-sqlrooms-b6397d53546c
[2] https://sqlrooms.org
[3] https://query.sqlrooms.org/
[4] https://sqlrooms-ai.netlify.app/
[5] https://github.com/sqlrooms/sqlrooms

#opensource #dataanalytics #dataengineering #duckdb
Вышла 3-я редакция стандарта формата для изображений PNG [1]. Почему это событие? Потому что предыдущая, вторая редакция [2], выходила в 2003 году (22 года назад!)

Что нового:
- признание анимированных PNG (APNG)
- правильная поддержка HDR
- официальная поддержка данных Exif

А также многое другое, но каких то особенных действий предпринимать не нужно поскольку большая часть популярных инструментов и так поддерживали эти расширения PNG и без принятого стандарта.

Ссылки:
[1] https://www.w3.org/TR/png-3/
[2] https://www.w3.org/TR/2003/REC-PNG-20031110/

#standards
Галлюцинации у LLM - это, всё таки, повсеместная проблема и ИИ сервисы глобальных игроков получше с этим справляются чем российские, даже в вопросах на которых российские LLM должны быть значительно эффективнее.

Вот пример, запроса Собери информацию по всем ФОИВам в России. Верни результат в виде CSV файла с колонками "id", "name", "website", "description" к Гигачату от Сбербанка в режиме "Провести исследование".

Откровенных ошибок в названиях и в ссылках на сайты очень много. Настолько что можно вручную собирать и это будет точнее.

Для сравнения, не буду называть конкретные китайские, европейские и американские LLM, выдают очень точный результат.

Запрос этот из реальной жизни, на него регулярно важно знать ответ при архивации официальных сайтов.

#ai
DataChain [1] хранилище для AI датасетов с неструктурированными данными вроде изображений, видео, аудио, документов. Открытый код, лицензия Apache 2.0, стремительно набирает пользовательскую базу. Опубликовано одноимённым стартапом. Для хранения используют S3, какой-то отдельный язык запросов я не увидел.

За проектом стоит команда которая делала аналог Git'а для данных DVC, а то есть проблематику они должны понимать хорошо.

В коммерческом сервисе обещают всякие ништяки вроде каталога данных, прослеживаемость данных, интерфейс просмотра мультимодальных данных и тд. Но это то на что интересно посмотреть, а так то может быть применение и только open source продукту.

Ссылки:
[1] https://github.com/iterative/datachain

#opensource #dataengineering
В рубрике открытых российских данных

Цифровой гербарий Московского университета [1] включает более 1 миллиона объектов, фотографий и записей о растениях по всему миру. Копия этой коллекции есть в репозитории GBIF [2] и она доступна в форме открытых данных в форматах аннотированного архива GBIF, EML и CSV файлов.

Он охватывает все постсоветсткие страны и многие страны мира и является одним из крупнейших российских ресурсов открытой науки.

Материалы гербария доступны под лицензией CC-BY

Ссылки:
[1] https://plant.depo.msu.ru/open/public/en
[2] https://www.gbif.org/dataset/902c8fe7-8f38-45b0-854e-c324fed36303

#opendata #russia #msu #herbarium #plants
Любопытная книжка Library Catalogues as Data: Research, Practice and Usage
[1] о том что работа библиотекаря сейчас и работа с библиотеками - это работа с данными. В книге публикации из сектора GLAM (Galleries, Libraries, Archives and Museums) о метаданных, данных и их применении и использовании, в том числе для обучения ИИ. Лично я не уверен что готов отдать за неё 60 или 120 евро (мягкая или твердая обложка), но кто знает, выглядит любопытно.

Ссылки:
[1] https://www.facetpublishing.co.uk/page/detail/library-catalogues-as-data/

#openaccess #glam #libraries #opendata #data
2025/06/27 22:03:40
Back to Top
HTML Embed Code: