Notice: file_put_contents(): Write of 4189 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 12381 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Ivan Begtin | Telegram Webview: begtin/6305 -
Telegram Group & Telegram Channel
Скоро надо будет подводить итоги этого года. Личные, профессиональные и всякие. У меня не получится изложить их в один текст/пост, начну с того что пришлось отложить и что пока не сделано. Всё это, идёт не первым приоритетом потому что first things first.

Вот наиболее технические отложенные задачи:
- Новый интерфейс для Ruarxive. Уже давно откладываемая задача на которую нет ресурсов это перезагрузка Национального цифрового архива ruarxive.org так чтобы сделать нормальный поиск по архивам, индексирование WARC файлов и удобный поиск по ним. Это оказалось не то чтобы сложной задачей, но требующей времени и концентрации хотя бы по написанию ТЗ чтобы к ней кого-то привлечь.
- Архивация госсайтов в РФ. Надо провести повторную архивацию всех ключевых российских госресурсов, в особенности всех цифровых ресурсов Росстата, сохранность их вызывает большие опасения. Но это стало сильно сложнее, многие российские госсайты теперь активно блокируют внешние краулеры, особенно из других стран
- Автоматизация документирования датасетов и баз данных. Нарастающая по важности задача поскольку данных всё больше, документировать их вручную всё более болезненно. Есть наработки в виде инструмента metacrafter'а и рассеяного кода, но надо всё свести конкретную модель и архитектуру. Скорее всего это постепенно сдвигается в сторону повышения качества Dateno и нового качества поиска.
- Много неопубликованных датасетов. По многим странам, не только по РФ. Например, база всего законодательства Казахстана в структурированном виде. Данные готовы, но не оформлены, не описаны, недостаточно ещё задокументированы.
- Библиотека универсального доступа к каталогам данных. Очень давно об этом думаю о том как сделать универсальный инструмент для поиска и доступа к данным в типовых каталогах, CKAN, DKAN, DataVerse, GeoNode и десятку других. Потому что в этом есть необходимость и довольно актуальная. Возможно наиболее логично перенести это в Dateno и сдвинуть в сторону сбора метаданных.
- Перезапустить оценку понятности языка PlainRussian. Возможно отложенное надолго поскольку LLM'ки типа GPT умеют это лучше. Конкурировать с ними сложно и непонятно зачем. Туда же относится создание оценки понятности языка для других языков, таких как армянский язык. Ничего сложного в этом нет, но опять же LLM дают лучший результат.
- Незавершённые проекты в Open Data Armenia. Многое всё ещё существует в полусобранных проектах, надо собраться с мыслями и силами довести их до продуктового состояния и продолжать развивать сообщество не только конкурсами, но и общей инфраструктурой данных.
- Неопубликованные курсы. По веб архивации, по digital humanities, по data discovery и по автоматизации каталогизации данных и их извлечению. И про обработку данных новыми инструментами.
- Недописанные книги/тексты/мануалы. Их как-то очень много, про личные тексты написать отдельно надо, а про рабочие - это тексты/книга про то как устроены данные и, что даже важнее, метаданные.

Про более приоритетное, особенно про Dateno, я ещё напишу позже.

Передаю эстафету всем тем кто думает о несделанном и думает о грузе несделанного о за прошлый год и как это сделать в следующем году.

#endofyear #thoughts #thinking #plans



group-telegram.com/begtin/6305
Create:
Last Update:

Скоро надо будет подводить итоги этого года. Личные, профессиональные и всякие. У меня не получится изложить их в один текст/пост, начну с того что пришлось отложить и что пока не сделано. Всё это, идёт не первым приоритетом потому что first things first.

Вот наиболее технические отложенные задачи:
- Новый интерфейс для Ruarxive. Уже давно откладываемая задача на которую нет ресурсов это перезагрузка Национального цифрового архива ruarxive.org так чтобы сделать нормальный поиск по архивам, индексирование WARC файлов и удобный поиск по ним. Это оказалось не то чтобы сложной задачей, но требующей времени и концентрации хотя бы по написанию ТЗ чтобы к ней кого-то привлечь.
- Архивация госсайтов в РФ. Надо провести повторную архивацию всех ключевых российских госресурсов, в особенности всех цифровых ресурсов Росстата, сохранность их вызывает большие опасения. Но это стало сильно сложнее, многие российские госсайты теперь активно блокируют внешние краулеры, особенно из других стран
- Автоматизация документирования датасетов и баз данных. Нарастающая по важности задача поскольку данных всё больше, документировать их вручную всё более болезненно. Есть наработки в виде инструмента metacrafter'а и рассеяного кода, но надо всё свести конкретную модель и архитектуру. Скорее всего это постепенно сдвигается в сторону повышения качества Dateno и нового качества поиска.
- Много неопубликованных датасетов. По многим странам, не только по РФ. Например, база всего законодательства Казахстана в структурированном виде. Данные готовы, но не оформлены, не описаны, недостаточно ещё задокументированы.
- Библиотека универсального доступа к каталогам данных. Очень давно об этом думаю о том как сделать универсальный инструмент для поиска и доступа к данным в типовых каталогах, CKAN, DKAN, DataVerse, GeoNode и десятку других. Потому что в этом есть необходимость и довольно актуальная. Возможно наиболее логично перенести это в Dateno и сдвинуть в сторону сбора метаданных.
- Перезапустить оценку понятности языка PlainRussian. Возможно отложенное надолго поскольку LLM'ки типа GPT умеют это лучше. Конкурировать с ними сложно и непонятно зачем. Туда же относится создание оценки понятности языка для других языков, таких как армянский язык. Ничего сложного в этом нет, но опять же LLM дают лучший результат.
- Незавершённые проекты в Open Data Armenia. Многое всё ещё существует в полусобранных проектах, надо собраться с мыслями и силами довести их до продуктового состояния и продолжать развивать сообщество не только конкурсами, но и общей инфраструктурой данных.
- Неопубликованные курсы. По веб архивации, по digital humanities, по data discovery и по автоматизации каталогизации данных и их извлечению. И про обработку данных новыми инструментами.
- Недописанные книги/тексты/мануалы. Их как-то очень много, про личные тексты написать отдельно надо, а про рабочие - это тексты/книга про то как устроены данные и, что даже важнее, метаданные.

Про более приоритетное, особенно про Dateno, я ещё напишу позже.

Передаю эстафету всем тем кто думает о несделанном и думает о грузе несделанного о за прошлый год и как это сделать в следующем году.

#endofyear #thoughts #thinking #plans

BY Ivan Begtin


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/6305

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram.
from us


Telegram Ivan Begtin
FROM American