Запрос
открытых данных
Как это работает на практике
Эксперимент Инфометра, часть 1
Открытые данные предназначены для свободного использования в бизнесе, приложениях и сервисах, исследованиях, научных работах, статьях, визуализациях. С 2014 года Инфометр исследует сайты с открытыми данными на соответствие закону.

Мы наблюдали развитие открытых данных в России с момента создания первых крупных порталов. С тех пор каждый уважающий себя госорган начал публиковать ОД, а общее количество наборов данных уже не поддается подсчету.

Однако часто нужных данных попросту нет, либо они низкого качества (давно не обновлялись, содержат ошибки, неточности). И это системная проблема, с которой сталкиваются все, кто работает с открытыми данными.
Не знаете, что такое "открытые данные"?
Отвечаем на часто задаваемые вопросы:

Что это?
Это бесплатная информация, доступная всем желающим, не ограниченная патентами, авторским правом: статистика, координаты, перечни, реестры, базы данных.

Для кого эти данные?
Для тех, кто умеет в программирование, анализ, визуализации.

Качественные открытые данные позволяют использовать их без ручной обработки, регулярно обновляются.

Какая польза от таких данных?
Появляются полезные приложения и сервисы, развивается независимая журналистика.

Простой пример — «Яндекс-транспорт» использует в том числе и открытые данные для отображения движения транспорта на картах. Если открытых данных нет — горожане могут увидеть такую грустную картинку.

Другой пример, открытые данные госзакупок позволяют найти сложные коррупционные схемы или просто странные траты бюджета.

Сложно начать работать с данными?
Порог вхождения минимальный — умение работать с офисными таблицами, считать цифры, делать выводы.

Кроме того, можно попробовать бесплатные инструменты, например Infogram для простых наглядных графиков, Tableau Public для анализа и визуализаций.

Как государство связано с данными?

Государство — это основной источник данных. Ежегодно собираются огромные массивы информации. И происходит это за наш счет. Своими налогами мы фактически уже оплатили сбор и хранение информации.

Но до сих пор мы часто оплачиваем пошлину, чтобы получить выписку из какой-нибудь информационной системы. А государственная статистика подаётся в сжатом виде, по которой можно сделать только общие выводы.
Опросили экспертов. Проекты разные, а проблема одна — нужных данных не хватает.
В регионах очень не хватает данных по коммерческим организациям и учреждениям. Простой пример — негосударственные медицинские центры. Часто бывает информация по выданным лицензиям на определенные виды деятельности, но выяснить физический адрес и название медицинского центра по названию юр. лица из реестра лицензий практически невозможно. И таких вопросов очень много.
Виктория Лазарева
Дата-аналитик Here Technologies
Все, что выходит за рамки ФСГС (Федеральная служба государственной статистики) достать очень трудно. Зачастую единственным доступным материалом остаются региональные разделы федеральных наборов. В первую очередь нужны данные по социально-экономическим параметрам, но в разбивке по муниципалитетам и ниже.
Григорий Ювченко
Финансовый директор ООО МФО "РусТендер"
Не хватает детальных данных на уровне городов и районов областей (районы областей, города, районы городов) о распределении затрата и расхода домохозяйств.
Арно Труссе
Генеральный директор компании РИЛОС
Востребованы любые геопространственные данные: границы населенных пунктов, численность населения до уровня самой мелкой территориальной единицы, границы РФ, объекты инфраструктуры и т. п. В целом, весь набор ОД должен содержать элементы геопривязки: адрес или координаты.
Андрей Пирогов
Основатель проекта GISGeo
Нужные данные можно получить у государства. Для этого существуют механизмы запроса информации, в том числе и в формате открытых данных.

Чтобы узнать, насколько эффективно работают такие механизмы обратной связи, мы решили проверить их на практике. Как мы это делали и что узнали — читайте дальше.
Что значит ОД?
ОД — это общепринятое сокращение от «открытые данные»
Что такое набор данных?
Набор данных, он же «датасет» (от английского data set/dataset) — это совокупность показателей, объединенных одной тематикой. Чаще всего набор данных соответствует по своей структуре таблице, где отдельные показатели указываются в заголовках столбцов. Вот несколько примеров разных наборов:

—  государственный реестр сертифицированных средств защиты информации

— статистика Россельхознадзора по проверке юрлиц и индивидуальных предпринимателей

— список многофункциональных центров
Что такое открытые даные?
Открытые данные (ОД) — это свободная лицензия + машиночитемость.

Свободная лицензия
 — можно использовать и распространять данные без ограничений, в т. ч. в коммерческих целях.

Машиночитаемость — данные структурированы и размещены в форматах, не требующих от аналитиков и програмистов их ручной обработки
Так Яндекс пытается получить доступ к данным самостоятельно.
Тест «Медузы» про то, что можно найти в данных о закупках, если поискать. Данные найдены проектом «Госзатраты».
Об эксперименте
Запросы данных. Что, где и как.
Независимые эксперты проекта Открытые данные: на связи предложили нам наборы, которые можно запросить в регионах.

Почему регионы? В отличие от федерального уровня власти, где каждое ведомство отвечает за свою сферу, регионы похожи по своим полномочиям, а значит и по собираемым данным. Поэтому запросы почти во все регионы могут быть одинаковыми.

Традиционно мы заранее уведомляем госорганы о том, что их сайты проверяются, а также даём время поработать над выполнением рекомендаций. По итогам мы обычно составляем публичные рейтинги — это хорошо мотивирует представителей госорганов улучшать их ресурсы.

Но в нашем новом исследовании мы предпочли выступить инкогнито — для чистоты эксперимента в отправке запросов нам помогали студенты Высшей школы экономики. Поэтому наш кейс -это история о том, может ли обычный пользователь данных получить их по запросу.
Эксперты предложили для запроса такие наборы:
Результаты ЕГЭ
По отдельным школам региона за 10 лет, по отдельным предметам
Границы субъектов
административно-территориальное деление + геоданные границ региона, районов, городов, внутригородских районов
Маршруты транспорта
и тарифы проезда, а также информация о выручке или пассажиропотоке
Мы использовали 2 способа для запроса: основной и вспомогательный
Основной: форма для обратной связи уровня региона
Ответ на обращение по такой форме обязателен по закону.
Дополнительный: форма на специальном сайте с открытыми данными
Сюда мы тоже дублировали запрос — в тех регионах, где есть общая форма запроса регионального уровня.
Что это за форма?
Обычно на госсайтах эти формы находятся в разделе «Обращения граждан» или «Интернет-приемная»
Что это за форма?
На сайте с открытыми данными должна быть форма для запроса недостающих наборов. Иногда её заменяет email, к описанию которого добавлено, что через него можно запросить данные.
59-ФЗ О порядке рассмотрения обращений граждан устанавливает возможность обратиться в госорган с обращением, заявлением и жалобой. Ответ на обращение должен быть дан в течении 30 дней со дня регистрации (+3 дня на регистрацию, а в исключительных случаях срок ответа может быть продлен до +30 дней).

8-ФЗ Об обеспечении доступа к информации госорганов устанавливает право на запрос информации, а с 2013 года этот закон включает в себя нормы по открытым данным. Запрос информации немного отличается по срокам ответа от обычного обращения — все те же 30 дней с регистрации, но продлевать срок рассмотрения госорган может только до +15 дней).
59-ФЗ О порядке рассмотрения обращений граждан устанавливает возможность обратиться в госорган с обращением, заявлением и жалобой. Ответ на обращение должен быть дан в течении 30 дней со дня регистрации (+3 дня на регистрацию, а в исключительных случаях срок ответа может быть продлен до +30 дней).

8-ФЗ Об обеспечении доступа к информации госорганов устанавливает право на запрос информации, а с 2013 года этот закон включает в себя нормы по открытым данным. Запрос информации немного отличается по срокам ответа от обычного обращения — все те же 30 дней с регистрации, но продлевать срок рассмотрения госорган может только до +15 дней).
Результаты
Самое важное. Только факты.
Безальтернативная альтернатива
Запрос через сайт открытых данных показал себя откровенно плохо, ответы получены всего по 20% от более чем 60 запросов.

На наш взгляд, такой инструмент полезно использовать, но как дополнение к официальному запросу. И вот почему:
Не ясны правила
На сайтах с данными редко указывается, как будет рассмотрен запрос на раскрытие наборов. В то время как официальное обращение урегулировано законом, в том числе и обязанность дать ответ в срок 30 дней.
Запрос перенаправляется
Сотрудники портала данных не решают, можно ли разместить нужный вам набор. Ваш запрос обычно направляется владельцу информации — на уровне региона это региональное министерство или департамент.
Два из трех
На официальные запросы нам ответили в 70% случаев, несмотря на обязанность ответить на каждое обращение. Всего было отправлено 255 официальных запросов, но пришло только 180 ответов.

Только 5 регионов не дали ни одного ответа: Кемеровская область, Республика Марий Эл, Чеченская Республика, Республика Крым, Ямало-Ненецкий АО.

Почему так произошло и как этого избежать? Сообщение может затеряться — банальная ошибка при отправке через сайт, неработающая форма приема обращений, отсутствие автоматической регистрации.
Мы направили 255 официальных обращений, поэтому решили сэкономить себе время, и просто дождаться ответа.

Но в обычном случае, если спустя 3 дня на email не пришло уведомление, нужно звонить и уточнять — зарегистрировано ли ваше обращение. То же самое справедливо, если ответ задерживают.
25 дней спустя
Большинство справляется с установленными сроками: средняя скорость ответа — 25 дней с момента отправки.

Самый быстрый ответ через официальную форму нам дали за 4 дня в Иркутской области — по набору о маршрутах. Вопрос ОД не затронули, дали ссылки на простую информацию на сайте.

Рекордсмен по задержке — Министерство образования Красноярского края: 147 дней против 30, установленных в законе. Обращение отправлено 7 июня, а ответ получен 1 ноября. При этом время, затраченное на ответ, не было использовано на публикацию данных. Нам сообщили, что публикация запрашиваемых данных в виде ОД не является обязательной, но дали ссылку сводную статистику по ЕГЭ, которую нужно собирать вручную. Конечно, это совсем не то, что запрашивалось — ни по содержанию, ни по детальности, ни по формату. Но это все же лучше, чем не получить ответ вовсе.
"Данные? У меня есть кое-что получше. Рисунок данных"
Когда мы запрашиваем открытые данные, мы ждем, что нам предоставят их в определенном формате. Но чаще всего (больше 80 ответов), вопрос открытых данных не поднимается вовсе. Нам сообщают, где можно найти информацию, частично связанную с нашим запросом. Фактически мы получаем ответ по классическому запросу информации, в котором указывается, где находится информация в открытом доступе.

Понятие «открытые данные» в РФ официально существует с 2013 года, а как явление — еще раньше. Но и на рубеже 2018−2019 года существует непонимание термина «Открытые данные», которое повсеместно путается с «информацией в открытом доступе».
Наглядно поясняем, в чем основная разница, и почему первое не равно второму:
Открытые данные
Подготовленные для разработчиков и аналитиков данные:
с понятными сроками обновления, четкой структурой, оговоренной лицензией на использование, обязательным назначением ответственного лица.
Информация в открытом доступе
Любая информация в любом виде на официальном сайте. В большинстве ответов на запросы такая информация является частичной, а ее самостоятельный сбор потребует затратить много усилий, например - распознавать сканы или переписывать информацию из них вручную.
«Спасибо-пожалуйста, всего хорошего»
Отписки — это привычный спутник бюрократии. Если ответ дан, но не по существу, не по заданному вопросу, из него ничего не понятно, либо прислан ответ вовсе не вам — будьте уверены, перед вами отписка. Также к отпискам мы отнесли те случаи, когда нам отказали, не поднимая вопрос открытых данных. Мы получили 32 таких ответа.

Почему так происходит? Мы видим 2 причины:
1. Нет понимания, что такое «открытые данные».
2. Формализм (ответ дан, сроки соблюдены, всего хорошего).

Собрали интересное:
Отказ с пояснением
Есть категория ответов, которые, на наш взгляд, ценнее ответов, не касающихся темы открытых данных. Это те ответы, где нам отказали в предоставлении открытых данных, но пояснили почему. Таких ответов: чуть меньше 40 от общего числа.

Сначала хотели озаглавить колонку «Мотивированный отказ», но мотивация не всегда может выглядеть обоснованной и часто похожа на отписку. Однако дают ответ по существу поставленного вопроса.

Из такого ответа можно понять, почему не предоставляются данные, и можно ли оспорить такую мотивацию.
Основные причины отказа
Формализм
Набор не является обязательным, поэтому о его размещении никто не будет волноваться. Для регионов таких обязательных наборов меньше 20, и они до сих пор полностью не размещены всеми субъектами. Наборы, размещение которых носит рекомендательный характер, могут не приниматься во внимание, потому что за их неразмещение ничего не будет.
"Чувствительная информация"
То, что опасаются публиковать из соображений «как бы чего не вышло». Яркий пример — Минобрнауки (теперь Минпросвещение) и Рособрнадзор, которые сопротивляются публикации результатов ЕГЭ по отдельным школам уже не первый год и разослал письма, в которых «результаты ЕГЭ не являются основанием для оценки эффективности».
Гостайна или персональные данные
Такой ответ может показать, что ваш запрос особо не читали. Само понятие «Открытые данные» исключает распространение персональных или засекреченных данных, потому что это запрещено законом. А открытые данные — это свободная лицензия на использование без ограничений.
Информация не относится к компетенции органа
Госорганы не готовы собирать данные во взаимодействии с других ведомствами и министерствами. Если что-то не относится к компетенции, нам предлагается самостоятельно обратиться в те органы, где, по мнению отвечающего, есть данные. Например — в каждую отдельную школу или муниципалитет, в зависимости от запрашиваемых данных.
Нет соответствующей информационной системы
Случай, когда можно «понять и простить». Хорошие данные — это следствие наличия информационных систем, которые позволяют выгружать данные автоматически. Это снижает вероятность ошибок, позволяет регулярно обновлять данные. Перед запросом важно изучить, какими системами потенциально обладает госорган.
Низкая востребованность данных
Размещение данных — не самый простой процесс. Госорганам рекомендовано руководствоваться востребованностью данных, которая вычисляется по сложной методике. В итоге каждый орган сам определяет, что востребовано, а что нет. Яркий пример — два ответа, где 1 единственный запрос был воспринят как востребованный, в то время как в другом — наоборот.
Обязательные наборы ОД
Обязательные (первоочередные) наборы данных — это нормативно закрепленный перечень информации, который органы власти обязаны разместить в формате открытых данных согласно Распоряжению Правительства Р Ф от 10.07.2013 № 1187-р. В этом списке есть и откровенно бесполезные наборы (о наименовании определенного госоргана), которые размещаются в виде таблиц, содержащих 1−2 строки.
Успех и как он выглядит
Привычных 30 дней, которые есть у государства для ответа, обычно недостаточно для подготовки качественного датасета.

Госоргану нужно начать с оценки наличия таких данных в информационных ресурсах органа (базах, реестрах, регистрах) — определить сложность публикации данных или необходимость доработки информационных систем, внесение изменений в планы и другие документы, в которых указываются данные для публикации в виде ОД, назначить ответственных за наборы. Поэтому не стоит ожидать предоставления данных в ответе на ваш запрос сразу. Успехом может считаться и сообщение сроков, когда решено опубликовать данные. К сожалению, мы получили только 7 таких ответов.

Кроме того, есть иные варианты, которые лучше отказа (20 ответов):

— Сообщают, что данные уже размещены частично ранее, и указывают, где их найти. Это полезный ответ, если вы не знали о таком наборе. Правда при таком ответе обычно не готовы дополнять данные по вашему запросу.
— Обещают опубликовать данные или рассмотреть запрос при планировании (хоть и не сообщают сроков).
ЕГЭ
Границы
Маршруты
Невидимая рука Рособрнадзора
Открытое правительство не один год пыталось внедрить практику размещения результатов ЕГЭ в форме открытых данных. При этом не обладая полномочиями обязывать к чему-либо, эти попытки не привели в публикации данных, в том числе из-за противодействия Минпросвещения (ранее — Минобрнауки) и Рособрнадзора.

Ведомства активно противодействуют доступности сведений о результатах экзамена. В регионы рассылались разъяснения, что результаты ЕГЭ «не являются основанием для оценки эффективности школ».

В ответах на запросы это частая причина отказа в предоставлении данных. Некоторые при запросе таких данных перенаправляют ваш запрос сразу в это министерство. Мотивация Рособрнадзора такая.

Все опасения сводятся к тому, что публикация рейтингов по результатам ЕГЭ приведет к увеличению фальсификаций, чтобы повысить рейтинг школы, а отстающих учеников попытаются исключить. Кроме того, отказать в предоставлении данных могут и по причине того, что результаты ЕГЭ — это персональная информация, хотя ничего персонального в обезличенных сведениях по отдельным школам нет. Опять же вопрос в понимании того, что такое «открытые данные».

Изучая ответы на запросы, нельзя не согласиться с Павлом Малковым (директор департамента в Минэкономразвития), который еще в 2016 году говорил:

«Вся приведенная коллегами аргументация свидетельствует не о том, что не надо публиковать данные — она ставит под сомнение саму систему ЕГЭ».
Геоданные - дело тонкое
В 2018 году Открытое правительство определило перечень наборов, рекомендуемых для размещения регионами. Среди них набор «Сведения об административно-территориальном делении». Некоторые публикуют такие наборы, но в них нет геоданных. Исключение — Тульская область, выложившая координаты границ самостоятельно, еще до нашего обращения, однако только по районам области и городам.

Мы попросили координаты по всем административным единицам — районам субъекта, городам, поселениям, а также внутренним городским районам, и сопроводительную информацию — площадь, количество жителей.

Изучая ответы, становится понятным, что культура открытых геоданных у нас еще не сложилась.

Куда нас направляли в ответах:
 — В МЦФ (получать бумажную выписку из ЕГРН);
 — В публичную кадастровую карту;
 — На региональный геопортал без возможности скачать данные;— На официальные сайты, где размещены картинки карт;
 — В нормативно-правовые акты.

Кроме того, ряд субъектов проводит работы по уточнению своих границ, чем и объясняется отсутствие запрашиваемых данных.

Исходя из ответов, мы не рекомендуем писать в запросе очень подробную структуру желаемого набора, нужно просить только самое важное, иначе акцент вашего запроса сместится, и вы получите ответ только по части набора, которая волнует вас меньше всего.
"Вне нашей компетенции"
Регионы и города обязаны вести реестры маршрутов. В законе определен перечень информации, которая входит в этот реестр, но не определена точная форма.

Кроме того, межмуниципальные реестры ведутся регионами, а муниципальные — городами. Мы запросили у региона и те, и другие реестры, с дополнением их определенной информацией — координатами трека каждого маршрута, тарифами проезда, сведениями о выручке или пассажиропотоке, информации о льготных категориях.

Из полученных ответов можно сделать такие выводы:

 — регионы не готовы координировать сбор данных в городах для составление единого набора данных. При предоставлении информации она дается в рамках сферы ответственности органа — по межмуниципальным маршрутам.

 — наличие информации в открытом доступе (например — скан документа с реестром) может считаться достаточным выполнением требований закона (по закону к таким реестрам должен предоставляться бесплатный доступ).

— анализ выручки и пассажиропотока по отдельным маршрутом либо не ведется, либо является «коммерческой тайной».

— несмотря на то, что документы Открытого правительства никто не отменял, необходимость размещения набора «маршруты и тарифы» в виде открытых данных носит рекомендательный характер, что часто приводит к ответу «мы не обязаны».

Вопрос маршрутов, тарифов, а также остановок и объектов дорожного сервиса мы изучали в этом году раньше: на уровне муниципалитетов. Если вы интересуетесь этой темой — читайте здесь. В этой статье также можно найти ссылки на отдельные наборы открытых данных и немашиночитаемую информацию по тематике муниципальных транспортных данных.
Что разместили по нашим запросам?
Спойлер — негусто, еще меньше, чем обещано.
ЕГЭ
Пустота. Ни один из новых обещанных наборов размещен не был. Хотя положительных ответов именно по этому набору мы получили больше всего.
Границы
Один новый набор. Есть немного ссылок на геоданные — файлы doc и pdf в системе MSK-10, WGS-84.
Маршруты и стоимость проезда
Астраханская область — тарифы области (неизвестная кодировка файла). Также наш запрос перенаправили в г. Астрахань, где внесли изменения в реестр маршрутов (информация о предельных тарифах). Это не машиночитаемые данные, но тем не менее.

Липецкая область — межмуниципальные маршруты, тарифы в отдельных городах, тарифы в области.

Санкт-Петербург — перечень маршрутов и тарифов.
Вместо итога
Начиная эксперимент, мы хотели узнать, как работает система запросов данных и поделиться нашим опытом. Получение новых наборов данных должно было стать дополнительным бонусом. Однако мы рассчитывали на более положительные результаты, хотя и знали, что получить нужное бывает крайне сложно.

Кроме традиционного формализма и отписок, выявляется непонимание термина «открытые данные». Популяризация ОД, которая проводилась Открытым правительством, отдельными организациями или энтузиастами, все еще не привела к массовому пониманию того, что такое «открытые данные» и для чего они нужны.

Лучший популяризатор — это сервисы и приложения, которые потенциально могут обеспечить новые рабочие места, поступление налогов в бюджет, принести пользу и улучшить качество жизни людей. А для этого нужны востребованные данные.

Мы все еще считаем, что писать запросы нужно. При этом их нужно писать чаще, но быть готовым к необходимости аргументировать запрашиваемое, контролировать ваш запрос и напоминать о нем, если вас не уведомляют и не отвечают в законные сроки. А в случаях, если ответ не дан по существу вопроса — и к оспариванию таких ответов.

Это не гарантирует предоставление данных, но с чего-то нужно начинать. И запрос открытых данных — простой и доступный всем способ, который позволяет показать, что запрашиваемые вами данными являются нужными и полезными, то есть востребованными.
Вторая часть нашего эксперимента — про исправление ошибок в наборах данных. Следите за нашими соцсетями, скоро в них появится продолжение. А чуть позже — памятка о том, как лучше запрашивать данные: в ней мы обобщим весь наш опыт направления запросов в госорганы, наработанный за годы работы, и дополненный этим экспериментом.
Изображения: SeppH, geralt, qimono
Иконки: Tilda Publishing и icons8.com

Наше спасибо:
Экспертам проекта "Открытые данные: на связи", которые помогали нам советами и комментариями.
Нашим практикантам, студентам ВШЭ, Александру, Глебу, Даниилу и Степану, которые помогли нам с отправкой запросов.
© 2016-2018
Проектный центр «Инфометр»
Мы в Facebook
Канал в Telegram
Мы ВКонтакте
Disclaimer

контакты по вопросам партнерства:
info@infometer.org (812) 944-13-40
При использовании материалов сайта
гиперссылка на источник обязательна
Made on
Tilda