Telegram Group & Telegram Channel
Forwarded from Горящая изба
Обещала описать опыт поиска данных об образовании через Dateno. Dateno (https://dateno.io) – развивающийся специализированный реестр наборов открытых данных, который регулярно пополняется новыми датасетами, дает широкие возможности для поиска, и в принципе довольно бодрый проект, разрабатываемый Иваном Бегтиным, экспертом в области открытых данных (@begtin).
С нашими дорогими educational data ("прости! не знаю, как перевести") есть сразу несколько нюансов:
1. Путаница данных об образовании и образовательных данных. Это не смертельно, если мы сразу задаемся вопросами о том, что же содержится в имеющихся датасетах.
2. Мало количество данных/датасетов при их большой содержательной фрагментарности (по чуть-чуть, но о многом, но по чуть-чуть)
3. Агрегирование и отсутствие доступа к гранулированным данным: все мы знаем, что 10 штук как среднее число компьютеров на школы региона, дает нам содержательно примерно ничего.

Есть и практическое соображение, диктуемое перспективами и тенденциями опубличивания данных в/об образовании в условиях распространения подходов открытой науки: нужны инструменты, позволяющие малой кровью отслеживать изменения в этой области и подтверждать/опровергать тренды. Пока данные в образовании редко становятся объектом управления, источником принятия решений, а имеющиеся наработки из других областей проникают со скрипом. Данные в образовании чувствительные, именно это часто мешает популяризации работы с ними. Ну, и есть некоторый карго-культ (не везде и не всегда).

### Что такое Dateno и как начать работу?

Dateno (https://dateno.io) уже содержит информацию о 19 миллионах датасетов и предоставляет понятный API для работы с ними.
1️⃣ Зарегистрируйтесь на платформе.
2️⃣ Получите токен для работы с API.
3️⃣ Используйте API (браузер, OpenRefine, старые добрые скрипты на Python/R).

### Мой эксперимент: поиск данных с ключевым словом "educational data"_*

Я залогинилась, быстро нашла свой токен, а потом запросила данные о датасетах, содержащих "educational data" в заголовке. Я рисковала, потому что датасеты из других областей тоже могут быть с такими словами, имея под собой просто учебные данные для отработки методов анализа.
Вот что удалось найти:

- Количество датасетов: 61.
- В основном, данные являются академическими/исследовательскими, то есть, датасеты распространяются как обязательства исследователей по опубличиванию результатов.
- К вопросу о том, насколько тщательно надо подходить к формулировке поискового запроса: многое из выдачи имеет мало отношения к образованию, например, мне прилетел датасет об эмигрантах в Хельсинки.
- Страны: большинство наборов данных (27) — из Восточной Азии (оно и понятно, основные датасеты из Японии), 9 — глобальные, 8 - Северная Америка.
- Форматы: .сsv (8), .json — 6, но есть и экзотика в лице .arff (текстовый формат ASCII, никогда с ним не сталкивалась).

### Потенциал Dateno для образовательных исследований

Dateno оказался полезным инструментом. Однако при работе с образовательными датасетами важно учитывать перечисленные выше нюансы. Интересно посмотреть, как представлены статистические наблюдения об образовании, и как можно прекратить пользоваться хранилищем Института статистики ЮНЕСКО. Пока не разобралась, можно ли ставить фильтр на количество записей/единиц анализа в датасете, вот это было полезно.

Гипотеза о потенциале Dateno для анализа данных вокруг образования, подтвердилась. Это хороший инструмент для того, понять, как датафицирована та или иная сфера исследований образования.



group-telegram.com/begtin/6217
Create:
Last Update:

Обещала описать опыт поиска данных об образовании через Dateno. Dateno (https://dateno.io) – развивающийся специализированный реестр наборов открытых данных, который регулярно пополняется новыми датасетами, дает широкие возможности для поиска, и в принципе довольно бодрый проект, разрабатываемый Иваном Бегтиным, экспертом в области открытых данных (@begtin).
С нашими дорогими educational data ("прости! не знаю, как перевести") есть сразу несколько нюансов:
1. Путаница данных об образовании и образовательных данных. Это не смертельно, если мы сразу задаемся вопросами о том, что же содержится в имеющихся датасетах.
2. Мало количество данных/датасетов при их большой содержательной фрагментарности (по чуть-чуть, но о многом, но по чуть-чуть)
3. Агрегирование и отсутствие доступа к гранулированным данным: все мы знаем, что 10 штук как среднее число компьютеров на школы региона, дает нам содержательно примерно ничего.

Есть и практическое соображение, диктуемое перспективами и тенденциями опубличивания данных в/об образовании в условиях распространения подходов открытой науки: нужны инструменты, позволяющие малой кровью отслеживать изменения в этой области и подтверждать/опровергать тренды. Пока данные в образовании редко становятся объектом управления, источником принятия решений, а имеющиеся наработки из других областей проникают со скрипом. Данные в образовании чувствительные, именно это часто мешает популяризации работы с ними. Ну, и есть некоторый карго-культ (не везде и не всегда).

### Что такое Dateno и как начать работу?

Dateno (https://dateno.io) уже содержит информацию о 19 миллионах датасетов и предоставляет понятный API для работы с ними.
1️⃣ Зарегистрируйтесь на платформе.
2️⃣ Получите токен для работы с API.
3️⃣ Используйте API (браузер, OpenRefine, старые добрые скрипты на Python/R).

### Мой эксперимент: поиск данных с ключевым словом "educational data"_*

Я залогинилась, быстро нашла свой токен, а потом запросила данные о датасетах, содержащих "educational data" в заголовке. Я рисковала, потому что датасеты из других областей тоже могут быть с такими словами, имея под собой просто учебные данные для отработки методов анализа.
Вот что удалось найти:

- Количество датасетов: 61.
- В основном, данные являются академическими/исследовательскими, то есть, датасеты распространяются как обязательства исследователей по опубличиванию результатов.
- К вопросу о том, насколько тщательно надо подходить к формулировке поискового запроса: многое из выдачи имеет мало отношения к образованию, например, мне прилетел датасет об эмигрантах в Хельсинки.
- Страны: большинство наборов данных (27) — из Восточной Азии (оно и понятно, основные датасеты из Японии), 9 — глобальные, 8 - Северная Америка.
- Форматы: .сsv (8), .json — 6, но есть и экзотика в лице .arff (текстовый формат ASCII, никогда с ним не сталкивалась).

### Потенциал Dateno для образовательных исследований

Dateno оказался полезным инструментом. Однако при работе с образовательными датасетами важно учитывать перечисленные выше нюансы. Интересно посмотреть, как представлены статистические наблюдения об образовании, и как можно прекратить пользоваться хранилищем Института статистики ЮНЕСКО. Пока не разобралась, можно ли ставить фильтр на количество записей/единиц анализа в датасете, вот это было полезно.

Гипотеза о потенциале Dateno для анализа данных вокруг образования, подтвердилась. Это хороший инструмент для того, понять, как датафицирована та или иная сфера исследований образования.

BY Ivan Begtin




Share with your friend now:
group-telegram.com/begtin/6217

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

NEWS But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation.
from us


Telegram Ivan Begtin
FROM American