Telegram Group Search
Полезное чтение про данные, технологии и не только:
- I feel open source has turned into two worlds [1] автор пишет про то как классический open source мир столкнулся с корпоративным и это ещё один водораздел между теми кто исповедует открытость как ценность и теми кто зарабатывает на этом деньги.
- Can A.I. Quicken the Pace of Math Discovery? [2] могут ли ИИ помощники усилить и ускорить научные открытия в высшей математике ? Тема очень и очень непростая, но в США DARPA запускают инициативу в которой хотят это попробовать.
- The Brute Squad [3] автор поёт оды вайб-кодингу, насколько оправданные - вот в чём вопрос. Но прочитать стоит

Ссылки:
[1] https://utcc.utoronto.ca/~cks/space/blog/tech/OpenSourceTwoWorlds
[2] https://www.nytimes.com/2025/06/19/science/math-ai-darpa.html
[3] https://sourcegraph.com/blog/the-brute-squad

#readings #ai #opensource
Многие ждут когда в США появится официальный сайт AI.gov пока он редиректит на сайт Белого Дома, но он много где уже проанонсирован и там ожидаются наиболее полные материалы по госполитике в отношении ИИ в США.

Я вот, тем временем, наблюдаю как регуляторы думают про применение ИИ в целом и в госсекторе, вопрос к тому как нормативка будет развиваться очень много поскольку регулирование ИИ будет касаться и цензурирования, и цены ошибки, и применения в критических отраслях, и передача данных между юрисдикциями и ещё много чего.

Но некоторые изменения мне представляются уже очень очевидными:
1. Практически неизбежно, вопрос лишь когда, будет аттестация и аккредитация ИИ. Позитивное регулирование может исходить из создания "реестров доверенных моделей и сервисов", негативное регулирование в блокировках и запрете использования определённых моделей и сервисов или запрете вообще всех кроме ограниченного числа.

2. Применительно к ИИ в госсекторе неизбежна централизация и G2G внутригосударственные облачные сервисы. Рано или поздно возникнут запреты на использование облачных частных продуктов и будут разворачиваться ИИ модели и сервисы на уровне регионов или отраслевых министерств или на уровне центрального правительства как G2G услуги. Причин несколько, но главная - ограничения на передачу персональных данных и гарантия что используемые данные не будут использоваться для обогащения большой облачной модели. Я знаю страны и регионы некоторых стран где такое уже практикуют.

3. Реорганизация экзаменов, постепенно во всем мире. Их проведение в местах с гарантированным отсутствием интернета и электричества. Почему? Только сдавать мобильные устройства недостаточно, будут пользоваться умными очками или иными скрытыми устройствами. Договорится со всеми крупнейшими облачными сервисами ИИ о том чтобы они не работали на время экзаменов тоже будет сложно, блокировка на страновом уровне тоже будет иметь ограниченный эффект. Только полное отсутствие интернета и изъятие устройств достаточно мощных чтобы в них работать SLM (малые языковые модели).

4. Реорганизация и кризис медицинских услуг особенно в странах где медицина стоит очень дорого. Стремительное применение ИИ для диагностики (уже происходит) и отдельное регулирование этой сферы (тоже уже происходит). Специалисты в этой области могут рассказать больше, но в целом применение ИИ в медицине - это та область которой игроки созданию ИИ оправдывают их создание и инвестиции более чем во всём остальном.

5. Страновые соглашения крупных игроков в области ИИ с национальными правительствами малых стран. У многих небольших развивающихся стран и стран с малыми доходами не будет достаточного числа ресурсов чтобы развернуть свои ИИ модели для внутригосударственных нужд, особенно с учётом того что их языки могут иметь очень немного носителей и очень мало текстов. В какой-то момент крупные игроки начнут заключать страновые соглашения по предоставлению своих продуктов с доработкой под эти языки (кстати ИИ от Яндекса пока понимает армянский язык лучше чем у всех международных игроков, просто для иллюстрации).

#ai #regulation #thoughts
Свежее исследование How do people feel about AI? [1] о восприятии ИИ в Великобритании от Института Алана Тюринга и Института Ады Лавлейс. Последний раз оно проводилось в 2023 году, поэтому в исследовании 2025 года много сравнений и отражение изменений с 2023 года.

Вот ключевые факты:
- 72% британцев считают что регулирование сделает для них использование ИИ более комфортным. Два года назад так говорили лишь 62%
- большие языковые модели стали мейнстримом и о их использовании говорят уже 61% респондентов
- уровень доверия ИИ стабилен, а уровень тревожности в отношении ИИ вырос с 44% в 2023 году, до 59% в 2025 году
- 75% жителей считают важным появление регулятора ИИ
- есть большой разброс того что люди знают об ИИ. Почти все знают об автомобилях без водителей и немногие знают о ИИ для распределения социальных пособий.
- пользователи по разному относятся к применению LLM к разным задачам. Менее всего они склонны их использовать в задачах имеющих юридические последствия, более всего для поиска
- самым позитивным применением считаются технологии распознавания лиц (!)
- самым негативным - автомобили без водителей

Там ещё много всего, исследование весьма подробное и его стоит почитать всем кто изучает влияние ИИ на общество.

Важно не забывать что оно проводилось в Великобритании и в разных странах опасения могут быть и будут разными.

Ссылки:
[1] https://attitudestoai.uk/

#readings #ai #uk
Свежий доклад по регулированию и использованию ИИ экспертов ООН в рамках рабочей группы по правам человека. Если вкратце то выводы и рекомендации о том что права человека должны быть основным ориентиром для разработчиков и заказчик продуктов на базе ИИ и учитываться при их создании и закупке.

Документ там небольшой, 26 страниц, вот тут прямая ссылка на версию на русском языке [2], но читать документы ООН всегда очень тяжело. Их не пишут простым языком, они всегда забюрократизированы, но читать их важно, в том числе учитывать при разработке новых ИИ продуктов.

Ссылки:
[1] https://www.ohchr.org/en/documents/thematic-reports/ahrc5953-artificial-intelligence-procurement-and-deployment-ensuring
[2] https://docs.un.org/ru/A/HRC/59/53

#readings #ai #UN
На днях я решил проинвентаризировать свои презентации за 5 лет и обнаружил что у меня их какое-то чрезмерное количество и недостаточно организованное. Подумываю о том чтобы хотя бы по части из них проводить открытые вебинары (уж не знаю стоит ли делать платные вебинары, хотя иногда и выступаю на коммерческой основе).

И вот я, наконец-то, чувствую что восстановился после COVID'а, прошло много лет, но реально два года после 2020 ощущение было ослабленности сознания, потом получше, но все публичные выступления я резко сократил. Теперь ощущения сильно лучше, как минимум я перестал опасаться выступать на большую аудиторию и, помимо работы над Dateno, время от времени рассказываю о чём-то новом и старом.

Что думаете, на какие темы стоило бы провести вебинар/вебинары?

Вот список

Государство, данные и ИИ

- Применение ИИ для госсектора
- Управление основанное на данных
- Инвентаризация данных. Объекты, подходы, инструменты
- Ключевые наборы данных и их поиск и инвентаризация
- Реестры государственных систем, государственных ресурсов и НСИ
- Открытый государственный код
- Искусственный интеллект в правоохранительной системе. Миф или реальность?
- Этика работы с данными и ИИ

Дата аналитика и инженерия
- Application of neural networks for tasks of automatic identification of semantic data types
- Альтернативные данные (о показателях за пределами официальной статистики)
- Мастер классы: ищем данные, чистим и структурируем данные
- Контроль качества данных

Открытые данные
- Открытые данные в мире
- Открытые данные как основа госполитики
- Поиск данных (data discovery) для дата проектов
- Городские и гиперлокальные данные в мире
- Sharing Data for Disaster Response and Recovery Programs

Открытые API
- Открытые API. Основы
- Открытые API. Платформы и сообщества

Работа с данными для исследователей
- Практика использования DuckDB для работы с большими исследовательскими данными
- Дата инженерия в цифровой гуманитаристике
- Сервисы инфраструктуры данных для исследователей

Цифровая и веб архивация
- Практика и особенности экстренной архивации веб-ресурсов
- Введение в цифровую архивацию
- Веб-архивация
- Архивация специализированных ресурсов
- Интернет архив с точки зрения цифрового архивиста
- Национальный цифровой архив. Цифровая архивация медиа
- Цифровая архивация. Подходы и практика

Журналистика и общественный контроль
- Скрытые данные / Какие данные спрятаны в госсайтах?
- Дата-журналистика в контексте доступности источников данных
- Приватность мобильных приложений
- Слежка через государственные мобильные приложения
- О необходимости контроля и аудита ADM- систем
- Дата расследования
- Нормативная открытость
- Открытость информационных систем нормотворчества
- Простой и понятный русский язык

#thoughts #presentations
Foursquare официально анонсировали [1] SQLRooms [2]. Это инструмент для построения дашбордов в основе которого DuckDB и интегрированный AI ассистент.

Можно вживую его посмотреть в интерфейсе куда можно загрузить данные и посмотреть запросы к ним [3] и в демо AI аналитика [4]

Про SQLRooms я ранее писал, но теперь он анонсирован официально и я так понимаю что весьма активно развивается.

А ещё они следуют ровно той концепции о которой я ранее писал - Local-first [5]

Ссылки:
[1] https://medium.com/@foursquare/foursquare-introduces-sqlrooms-b6397d53546c
[2] https://sqlrooms.org
[3] https://query.sqlrooms.org/
[4] https://sqlrooms-ai.netlify.app/
[5] https://github.com/sqlrooms/sqlrooms

#opensource #dataanalytics #dataengineering #duckdb
Вышла 3-я редакция стандарта формата для изображений PNG [1]. Почему это событие? Потому что предыдущая, вторая редакция [2], выходила в 2003 году (22 года назад!)

Что нового:
- признание анимированных PNG (APNG)
- правильная поддержка HDR
- официальная поддержка данных Exif

А также многое другое, но каких то особенных действий предпринимать не нужно поскольку большая часть популярных инструментов и так поддерживали эти расширения PNG и без принятого стандарта.

Ссылки:
[1] https://www.w3.org/TR/png-3/
[2] https://www.w3.org/TR/2003/REC-PNG-20031110/

#standards
Галлюцинации у LLM - это, всё таки, повсеместная проблема и ИИ сервисы глобальных игроков получше с этим справляются чем российские, даже в вопросах на которых российские LLM должны быть значительно эффективнее.

Вот пример, запроса Собери информацию по всем ФОИВам в России. Верни результат в виде CSV файла с колонками "id", "name", "website", "description" к Гигачату от Сбербанка в режиме "Провести исследование".

Откровенных ошибок в названиях и в ссылках на сайты очень много. Настолько что можно вручную собирать и это будет точнее.

Для сравнения, не буду называть конкретные китайские, европейские и американские LLM, выдают очень точный результат.

Запрос этот из реальной жизни, на него регулярно важно знать ответ при архивации официальных сайтов.

#ai
DataChain [1] хранилище для AI датасетов с неструктурированными данными вроде изображений, видео, аудио, документов. Открытый код, лицензия Apache 2.0, стремительно набирает пользовательскую базу. Опубликовано одноимённым стартапом. Для хранения используют S3, какой-то отдельный язык запросов я не увидел.

За проектом стоит команда которая делала аналог Git'а для данных DVC, а то есть проблематику они должны понимать хорошо.

В коммерческом сервисе обещают всякие ништяки вроде каталога данных, прослеживаемость данных, интерфейс просмотра мультимодальных данных и тд. Но это то на что интересно посмотреть, а так то может быть применение и только open source продукту.

Ссылки:
[1] https://github.com/iterative/datachain

#opensource #dataengineering
В рубрике открытых российских данных

Цифровой гербарий Московского университета [1] включает более 1 миллиона объектов, фотографий и записей о растениях по всему миру. Копия этой коллекции есть в репозитории GBIF [2] и она доступна в форме открытых данных в форматах аннотированного архива GBIF, EML и CSV файлов.

Он охватывает все постсоветсткие страны и многие страны мира и является одним из крупнейших российских ресурсов открытой науки.

Материалы гербария доступны под лицензией CC-BY

Ссылки:
[1] https://plant.depo.msu.ru/open/public/en
[2] https://www.gbif.org/dataset/902c8fe7-8f38-45b0-854e-c324fed36303

#opendata #russia #msu #herbarium #plants
Любопытная книжка Library Catalogues as Data: Research, Practice and Usage
[1] о том что работа библиотекаря сейчас и работа с библиотеками - это работа с данными. В книге публикации из сектора GLAM (Galleries, Libraries, Archives and Museums) о метаданных, данных и их применении и использовании, в том числе для обучения ИИ. Лично я не уверен что готов отдать за неё 60 или 120 евро (мягкая или твердая обложка), но кто знает, выглядит любопытно.

Ссылки:
[1] https://www.facetpublishing.co.uk/page/detail/library-catalogues-as-data/

#openaccess #glam #libraries #opendata #data
2025/06/28 00:05:42
Back to Top
HTML Embed Code: