Notice: file_put_contents(): Write of 4189 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 12381 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Ivan Begtin | Telegram Webview: begtin/6305 -
Telegram Group & Telegram Channel
Скоро надо будет подводить итоги этого года. Личные, профессиональные и всякие. У меня не получится изложить их в один текст/пост, начну с того что пришлось отложить и что пока не сделано. Всё это, идёт не первым приоритетом потому что first things first.

Вот наиболее технические отложенные задачи:
- Новый интерфейс для Ruarxive. Уже давно откладываемая задача на которую нет ресурсов это перезагрузка Национального цифрового архива ruarxive.org так чтобы сделать нормальный поиск по архивам, индексирование WARC файлов и удобный поиск по ним. Это оказалось не то чтобы сложной задачей, но требующей времени и концентрации хотя бы по написанию ТЗ чтобы к ней кого-то привлечь.
- Архивация госсайтов в РФ. Надо провести повторную архивацию всех ключевых российских госресурсов, в особенности всех цифровых ресурсов Росстата, сохранность их вызывает большие опасения. Но это стало сильно сложнее, многие российские госсайты теперь активно блокируют внешние краулеры, особенно из других стран
- Автоматизация документирования датасетов и баз данных. Нарастающая по важности задача поскольку данных всё больше, документировать их вручную всё более болезненно. Есть наработки в виде инструмента metacrafter'а и рассеяного кода, но надо всё свести конкретную модель и архитектуру. Скорее всего это постепенно сдвигается в сторону повышения качества Dateno и нового качества поиска.
- Много неопубликованных датасетов. По многим странам, не только по РФ. Например, база всего законодательства Казахстана в структурированном виде. Данные готовы, но не оформлены, не описаны, недостаточно ещё задокументированы.
- Библиотека универсального доступа к каталогам данных. Очень давно об этом думаю о том как сделать универсальный инструмент для поиска и доступа к данным в типовых каталогах, CKAN, DKAN, DataVerse, GeoNode и десятку других. Потому что в этом есть необходимость и довольно актуальная. Возможно наиболее логично перенести это в Dateno и сдвинуть в сторону сбора метаданных.
- Перезапустить оценку понятности языка PlainRussian. Возможно отложенное надолго поскольку LLM'ки типа GPT умеют это лучше. Конкурировать с ними сложно и непонятно зачем. Туда же относится создание оценки понятности языка для других языков, таких как армянский язык. Ничего сложного в этом нет, но опять же LLM дают лучший результат.
- Незавершённые проекты в Open Data Armenia. Многое всё ещё существует в полусобранных проектах, надо собраться с мыслями и силами довести их до продуктового состояния и продолжать развивать сообщество не только конкурсами, но и общей инфраструктурой данных.
- Неопубликованные курсы. По веб архивации, по digital humanities, по data discovery и по автоматизации каталогизации данных и их извлечению. И про обработку данных новыми инструментами.
- Недописанные книги/тексты/мануалы. Их как-то очень много, про личные тексты написать отдельно надо, а про рабочие - это тексты/книга про то как устроены данные и, что даже важнее, метаданные.

Про более приоритетное, особенно про Dateno, я ещё напишу позже.

Передаю эстафету всем тем кто думает о несделанном и думает о грузе несделанного о за прошлый год и как это сделать в следующем году.

#endofyear #thoughts #thinking #plans



group-telegram.com/begtin/6305
Create:
Last Update:

Скоро надо будет подводить итоги этого года. Личные, профессиональные и всякие. У меня не получится изложить их в один текст/пост, начну с того что пришлось отложить и что пока не сделано. Всё это, идёт не первым приоритетом потому что first things first.

Вот наиболее технические отложенные задачи:
- Новый интерфейс для Ruarxive. Уже давно откладываемая задача на которую нет ресурсов это перезагрузка Национального цифрового архива ruarxive.org так чтобы сделать нормальный поиск по архивам, индексирование WARC файлов и удобный поиск по ним. Это оказалось не то чтобы сложной задачей, но требующей времени и концентрации хотя бы по написанию ТЗ чтобы к ней кого-то привлечь.
- Архивация госсайтов в РФ. Надо провести повторную архивацию всех ключевых российских госресурсов, в особенности всех цифровых ресурсов Росстата, сохранность их вызывает большие опасения. Но это стало сильно сложнее, многие российские госсайты теперь активно блокируют внешние краулеры, особенно из других стран
- Автоматизация документирования датасетов и баз данных. Нарастающая по важности задача поскольку данных всё больше, документировать их вручную всё более болезненно. Есть наработки в виде инструмента metacrafter'а и рассеяного кода, но надо всё свести конкретную модель и архитектуру. Скорее всего это постепенно сдвигается в сторону повышения качества Dateno и нового качества поиска.
- Много неопубликованных датасетов. По многим странам, не только по РФ. Например, база всего законодательства Казахстана в структурированном виде. Данные готовы, но не оформлены, не описаны, недостаточно ещё задокументированы.
- Библиотека универсального доступа к каталогам данных. Очень давно об этом думаю о том как сделать универсальный инструмент для поиска и доступа к данным в типовых каталогах, CKAN, DKAN, DataVerse, GeoNode и десятку других. Потому что в этом есть необходимость и довольно актуальная. Возможно наиболее логично перенести это в Dateno и сдвинуть в сторону сбора метаданных.
- Перезапустить оценку понятности языка PlainRussian. Возможно отложенное надолго поскольку LLM'ки типа GPT умеют это лучше. Конкурировать с ними сложно и непонятно зачем. Туда же относится создание оценки понятности языка для других языков, таких как армянский язык. Ничего сложного в этом нет, но опять же LLM дают лучший результат.
- Незавершённые проекты в Open Data Armenia. Многое всё ещё существует в полусобранных проектах, надо собраться с мыслями и силами довести их до продуктового состояния и продолжать развивать сообщество не только конкурсами, но и общей инфраструктурой данных.
- Неопубликованные курсы. По веб архивации, по digital humanities, по data discovery и по автоматизации каталогизации данных и их извлечению. И про обработку данных новыми инструментами.
- Недописанные книги/тексты/мануалы. Их как-то очень много, про личные тексты написать отдельно надо, а про рабочие - это тексты/книга про то как устроены данные и, что даже важнее, метаданные.

Про более приоритетное, особенно про Dateno, я ещё напишу позже.

Передаю эстафету всем тем кто думает о несделанном и думает о грузе несделанного о за прошлый год и как это сделать в следующем году.

#endofyear #thoughts #thinking #plans

BY Ivan Begtin


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/6305

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. He adds: "Telegram has become my primary news source." Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts.
from kr


Telegram Ivan Begtin
FROM American