Telegram Group & Telegram Channel
Forwarded from Горящая изба
Обещала описать опыт поиска данных об образовании через Dateno. Dateno (https://dateno.io) – развивающийся специализированный реестр наборов открытых данных, который регулярно пополняется новыми датасетами, дает широкие возможности для поиска, и в принципе довольно бодрый проект, разрабатываемый Иваном Бегтиным, экспертом в области открытых данных (@begtin).
С нашими дорогими educational data ("прости! не знаю, как перевести") есть сразу несколько нюансов:
1. Путаница данных об образовании и образовательных данных. Это не смертельно, если мы сразу задаемся вопросами о том, что же содержится в имеющихся датасетах.
2. Мало количество данных/датасетов при их большой содержательной фрагментарности (по чуть-чуть, но о многом, но по чуть-чуть)
3. Агрегирование и отсутствие доступа к гранулированным данным: все мы знаем, что 10 штук как среднее число компьютеров на школы региона, дает нам содержательно примерно ничего.

Есть и практическое соображение, диктуемое перспективами и тенденциями опубличивания данных в/об образовании в условиях распространения подходов открытой науки: нужны инструменты, позволяющие малой кровью отслеживать изменения в этой области и подтверждать/опровергать тренды. Пока данные в образовании редко становятся объектом управления, источником принятия решений, а имеющиеся наработки из других областей проникают со скрипом. Данные в образовании чувствительные, именно это часто мешает популяризации работы с ними. Ну, и есть некоторый карго-культ (не везде и не всегда).

### Что такое Dateno и как начать работу?

Dateno (https://dateno.io) уже содержит информацию о 19 миллионах датасетов и предоставляет понятный API для работы с ними.
1️⃣ Зарегистрируйтесь на платформе.
2️⃣ Получите токен для работы с API.
3️⃣ Используйте API (браузер, OpenRefine, старые добрые скрипты на Python/R).

### Мой эксперимент: поиск данных с ключевым словом "educational data"_*

Я залогинилась, быстро нашла свой токен, а потом запросила данные о датасетах, содержащих "educational data" в заголовке. Я рисковала, потому что датасеты из других областей тоже могут быть с такими словами, имея под собой просто учебные данные для отработки методов анализа.
Вот что удалось найти:

- Количество датасетов: 61.
- В основном, данные являются академическими/исследовательскими, то есть, датасеты распространяются как обязательства исследователей по опубличиванию результатов.
- К вопросу о том, насколько тщательно надо подходить к формулировке поискового запроса: многое из выдачи имеет мало отношения к образованию, например, мне прилетел датасет об эмигрантах в Хельсинки.
- Страны: большинство наборов данных (27) — из Восточной Азии (оно и понятно, основные датасеты из Японии), 9 — глобальные, 8 - Северная Америка.
- Форматы: .сsv (8), .json — 6, но есть и экзотика в лице .arff (текстовый формат ASCII, никогда с ним не сталкивалась).

### Потенциал Dateno для образовательных исследований

Dateno оказался полезным инструментом. Однако при работе с образовательными датасетами важно учитывать перечисленные выше нюансы. Интересно посмотреть, как представлены статистические наблюдения об образовании, и как можно прекратить пользоваться хранилищем Института статистики ЮНЕСКО. Пока не разобралась, можно ли ставить фильтр на количество записей/единиц анализа в датасете, вот это было полезно.

Гипотеза о потенциале Dateno для анализа данных вокруг образования, подтвердилась. Это хороший инструмент для того, понять, как датафицирована та или иная сфера исследований образования.



group-telegram.com/begtin/6217
Create:
Last Update:

Обещала описать опыт поиска данных об образовании через Dateno. Dateno (https://dateno.io) – развивающийся специализированный реестр наборов открытых данных, который регулярно пополняется новыми датасетами, дает широкие возможности для поиска, и в принципе довольно бодрый проект, разрабатываемый Иваном Бегтиным, экспертом в области открытых данных (@begtin).
С нашими дорогими educational data ("прости! не знаю, как перевести") есть сразу несколько нюансов:
1. Путаница данных об образовании и образовательных данных. Это не смертельно, если мы сразу задаемся вопросами о том, что же содержится в имеющихся датасетах.
2. Мало количество данных/датасетов при их большой содержательной фрагментарности (по чуть-чуть, но о многом, но по чуть-чуть)
3. Агрегирование и отсутствие доступа к гранулированным данным: все мы знаем, что 10 штук как среднее число компьютеров на школы региона, дает нам содержательно примерно ничего.

Есть и практическое соображение, диктуемое перспективами и тенденциями опубличивания данных в/об образовании в условиях распространения подходов открытой науки: нужны инструменты, позволяющие малой кровью отслеживать изменения в этой области и подтверждать/опровергать тренды. Пока данные в образовании редко становятся объектом управления, источником принятия решений, а имеющиеся наработки из других областей проникают со скрипом. Данные в образовании чувствительные, именно это часто мешает популяризации работы с ними. Ну, и есть некоторый карго-культ (не везде и не всегда).

### Что такое Dateno и как начать работу?

Dateno (https://dateno.io) уже содержит информацию о 19 миллионах датасетов и предоставляет понятный API для работы с ними.
1️⃣ Зарегистрируйтесь на платформе.
2️⃣ Получите токен для работы с API.
3️⃣ Используйте API (браузер, OpenRefine, старые добрые скрипты на Python/R).

### Мой эксперимент: поиск данных с ключевым словом "educational data"_*

Я залогинилась, быстро нашла свой токен, а потом запросила данные о датасетах, содержащих "educational data" в заголовке. Я рисковала, потому что датасеты из других областей тоже могут быть с такими словами, имея под собой просто учебные данные для отработки методов анализа.
Вот что удалось найти:

- Количество датасетов: 61.
- В основном, данные являются академическими/исследовательскими, то есть, датасеты распространяются как обязательства исследователей по опубличиванию результатов.
- К вопросу о том, насколько тщательно надо подходить к формулировке поискового запроса: многое из выдачи имеет мало отношения к образованию, например, мне прилетел датасет об эмигрантах в Хельсинки.
- Страны: большинство наборов данных (27) — из Восточной Азии (оно и понятно, основные датасеты из Японии), 9 — глобальные, 8 - Северная Америка.
- Форматы: .сsv (8), .json — 6, но есть и экзотика в лице .arff (текстовый формат ASCII, никогда с ним не сталкивалась).

### Потенциал Dateno для образовательных исследований

Dateno оказался полезным инструментом. Однако при работе с образовательными датасетами важно учитывать перечисленные выше нюансы. Интересно посмотреть, как представлены статистические наблюдения об образовании, и как можно прекратить пользоваться хранилищем Института статистики ЮНЕСКО. Пока не разобралась, можно ли ставить фильтр на количество записей/единиц анализа в датасете, вот это было полезно.

Гипотеза о потенциале Dateno для анализа данных вокруг образования, подтвердилась. Это хороший инструмент для того, понять, как датафицирована та или иная сфера исследований образования.

BY Ivan Begtin




Share with your friend now:
group-telegram.com/begtin/6217

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields.
from es


Telegram Ivan Begtin
FROM American