Telegram Group & Telegram Channel
Forwarded from Горящая изба
Обещала описать опыт поиска данных об образовании через Dateno. Dateno (https://dateno.io) – развивающийся специализированный реестр наборов открытых данных, который регулярно пополняется новыми датасетами, дает широкие возможности для поиска, и в принципе довольно бодрый проект, разрабатываемый Иваном Бегтиным, экспертом в области открытых данных (@begtin).
С нашими дорогими educational data ("прости! не знаю, как перевести") есть сразу несколько нюансов:
1. Путаница данных об образовании и образовательных данных. Это не смертельно, если мы сразу задаемся вопросами о том, что же содержится в имеющихся датасетах.
2. Мало количество данных/датасетов при их большой содержательной фрагментарности (по чуть-чуть, но о многом, но по чуть-чуть)
3. Агрегирование и отсутствие доступа к гранулированным данным: все мы знаем, что 10 штук как среднее число компьютеров на школы региона, дает нам содержательно примерно ничего.

Есть и практическое соображение, диктуемое перспективами и тенденциями опубличивания данных в/об образовании в условиях распространения подходов открытой науки: нужны инструменты, позволяющие малой кровью отслеживать изменения в этой области и подтверждать/опровергать тренды. Пока данные в образовании редко становятся объектом управления, источником принятия решений, а имеющиеся наработки из других областей проникают со скрипом. Данные в образовании чувствительные, именно это часто мешает популяризации работы с ними. Ну, и есть некоторый карго-культ (не везде и не всегда).

### Что такое Dateno и как начать работу?

Dateno (https://dateno.io) уже содержит информацию о 19 миллионах датасетов и предоставляет понятный API для работы с ними.
1️⃣ Зарегистрируйтесь на платформе.
2️⃣ Получите токен для работы с API.
3️⃣ Используйте API (браузер, OpenRefine, старые добрые скрипты на Python/R).

### Мой эксперимент: поиск данных с ключевым словом "educational data"_*

Я залогинилась, быстро нашла свой токен, а потом запросила данные о датасетах, содержащих "educational data" в заголовке. Я рисковала, потому что датасеты из других областей тоже могут быть с такими словами, имея под собой просто учебные данные для отработки методов анализа.
Вот что удалось найти:

- Количество датасетов: 61.
- В основном, данные являются академическими/исследовательскими, то есть, датасеты распространяются как обязательства исследователей по опубличиванию результатов.
- К вопросу о том, насколько тщательно надо подходить к формулировке поискового запроса: многое из выдачи имеет мало отношения к образованию, например, мне прилетел датасет об эмигрантах в Хельсинки.
- Страны: большинство наборов данных (27) — из Восточной Азии (оно и понятно, основные датасеты из Японии), 9 — глобальные, 8 - Северная Америка.
- Форматы: .сsv (8), .json — 6, но есть и экзотика в лице .arff (текстовый формат ASCII, никогда с ним не сталкивалась).

### Потенциал Dateno для образовательных исследований

Dateno оказался полезным инструментом. Однако при работе с образовательными датасетами важно учитывать перечисленные выше нюансы. Интересно посмотреть, как представлены статистические наблюдения об образовании, и как можно прекратить пользоваться хранилищем Института статистики ЮНЕСКО. Пока не разобралась, можно ли ставить фильтр на количество записей/единиц анализа в датасете, вот это было полезно.

Гипотеза о потенциале Dateno для анализа данных вокруг образования, подтвердилась. Это хороший инструмент для того, понять, как датафицирована та или иная сфера исследований образования.



group-telegram.com/begtin/6217
Create:
Last Update:

Обещала описать опыт поиска данных об образовании через Dateno. Dateno (https://dateno.io) – развивающийся специализированный реестр наборов открытых данных, который регулярно пополняется новыми датасетами, дает широкие возможности для поиска, и в принципе довольно бодрый проект, разрабатываемый Иваном Бегтиным, экспертом в области открытых данных (@begtin).
С нашими дорогими educational data ("прости! не знаю, как перевести") есть сразу несколько нюансов:
1. Путаница данных об образовании и образовательных данных. Это не смертельно, если мы сразу задаемся вопросами о том, что же содержится в имеющихся датасетах.
2. Мало количество данных/датасетов при их большой содержательной фрагментарности (по чуть-чуть, но о многом, но по чуть-чуть)
3. Агрегирование и отсутствие доступа к гранулированным данным: все мы знаем, что 10 штук как среднее число компьютеров на школы региона, дает нам содержательно примерно ничего.

Есть и практическое соображение, диктуемое перспективами и тенденциями опубличивания данных в/об образовании в условиях распространения подходов открытой науки: нужны инструменты, позволяющие малой кровью отслеживать изменения в этой области и подтверждать/опровергать тренды. Пока данные в образовании редко становятся объектом управления, источником принятия решений, а имеющиеся наработки из других областей проникают со скрипом. Данные в образовании чувствительные, именно это часто мешает популяризации работы с ними. Ну, и есть некоторый карго-культ (не везде и не всегда).

### Что такое Dateno и как начать работу?

Dateno (https://dateno.io) уже содержит информацию о 19 миллионах датасетов и предоставляет понятный API для работы с ними.
1️⃣ Зарегистрируйтесь на платформе.
2️⃣ Получите токен для работы с API.
3️⃣ Используйте API (браузер, OpenRefine, старые добрые скрипты на Python/R).

### Мой эксперимент: поиск данных с ключевым словом "educational data"_*

Я залогинилась, быстро нашла свой токен, а потом запросила данные о датасетах, содержащих "educational data" в заголовке. Я рисковала, потому что датасеты из других областей тоже могут быть с такими словами, имея под собой просто учебные данные для отработки методов анализа.
Вот что удалось найти:

- Количество датасетов: 61.
- В основном, данные являются академическими/исследовательскими, то есть, датасеты распространяются как обязательства исследователей по опубличиванию результатов.
- К вопросу о том, насколько тщательно надо подходить к формулировке поискового запроса: многое из выдачи имеет мало отношения к образованию, например, мне прилетел датасет об эмигрантах в Хельсинки.
- Страны: большинство наборов данных (27) — из Восточной Азии (оно и понятно, основные датасеты из Японии), 9 — глобальные, 8 - Северная Америка.
- Форматы: .сsv (8), .json — 6, но есть и экзотика в лице .arff (текстовый формат ASCII, никогда с ним не сталкивалась).

### Потенциал Dateno для образовательных исследований

Dateno оказался полезным инструментом. Однако при работе с образовательными датасетами важно учитывать перечисленные выше нюансы. Интересно посмотреть, как представлены статистические наблюдения об образовании, и как можно прекратить пользоваться хранилищем Института статистики ЮНЕСКО. Пока не разобралась, можно ли ставить фильтр на количество записей/единиц анализа в датасете, вот это было полезно.

Гипотеза о потенциале Dateno для анализа данных вокруг образования, подтвердилась. Это хороший инструмент для того, понять, как датафицирована та или иная сфера исследований образования.

BY Ivan Begtin




Share with your friend now:
group-telegram.com/begtin/6217

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. Some privacy experts say Telegram is not secure enough
from br


Telegram Ivan Begtin
FROM American