Инфометр
Проектный центр "Инфометр"
Открытые транспортные данные
в России. Миф или реальность?
Транспортная система — это артерии, позволяющие городу жить и расти. О важности открытых транспортных данных и о зарубежном опыте мы писали раньше. А как обстоят дела в России? Делимся результатами нашего исследования
Если вы впервые слышите это словосочетание
Что такое открытые данные?
ОД – это базы данных, сведения об адресах, координаты и любая другая неперсональная информация, у которой есть 3 признака:

  • свободное использование в законных целях;
  • свободный доступ без ограничений;
  • машиночитаемый формат.

Такая информация используется программистами, учеными, журналистами и органами власти для анализа, прогнозирования и создания на ее базе удобных пользовательских сервисов и приложений.

Например:
  • чтобы автобус пришел вовремя и в нём нашлось место, гражданам полезны сведения о его местонахождении, а экспертам – о нагрузке на транспортную сеть;
  • чтобы построить путь планируемого передвижения будут полезны сведения о треке маршрута;
  • чтобы найти в приложении ближайшую остановку, нужны ее координаты, а в предсказании прибытия транспорта должно помочь подробное расписание.

С 2013 года публикация открытых данных органами власти в РФ обязательна, данное направление активно развивается во всём мире. С 2014 года "Инфометр" регулярно проводит исследования в этой сфере.
Об исследовании

Мы взяли сайты 168 крупнейших российских городов (больше 100 тысяч жителей, кроме Москвы, Петербурга и Севастополя) и проверили, публикуются ли на них три важных набора информации (датасета):
Что: перечень городских маршрутов — номера, остановки, улицы, протяженность, сведения о транспортных средствах и перевозчиках, стоимость проезда

Зачем: в сочетании с координатами трека маршрута и остановок, расписанием транспорта, такие данные можно использовать для создания приложений для облегчения навигации в городе, создавать справочные сервисы; в сочетании с динамическими данными — отображать на карте движения транспорта на маршруте
Что: список остановок с координатами и перечнем транспортных маршрутов

Зачем: используется в картографии, в приложениях для построении оптимального маршрута, поиске ближайших остановок; в сочетании с расписанием — расчет прибытия транспорта на остановку, при объединении с координатами транспорта можно анализировать нагрузку отдельных маршрутов или остановок
Что: перечень объектов дорожного сервиса с координатами, указанием вида объекта, адреса

Зачем: востребовано в приложениях-навигаторах для автомобилистов, картографии в целом. В сочетании с информацией об указываемых услугах и их стоимости, времени работы полезно в справочных сервисах.
Оцениваемая структура набора данных
Коротко о том, что такое структура набора:
это отдельные показатели, по которым заполняется информация по набору. Например, для набора о маршруте такими показателями могут быть
- "номер маршрута"
- "наименование маршрута"
- "протяженность маршрута" и т.п.
Такая информация должна быть указана по каждому маршруту. В итоге у нас получится файл, в котором для каждого отдельного маршрута будет указан четко структурированный и единообразный перечень данных, пригодный для анализа или применения в приложениях или сервисах.

По набору о маршрутах и тарифах общественного транспорта мы искали и оценивали такое содержание (структуру):

  1. Наименование маршрута
  2. Номер маршрута
  3. Вид сообщения (городское, пригородное)
  4. Наименование улиц и автодорог, по которым проходит маршрут
  5. Наименование остановочных пунктов маршрута
  6. Протяженность маршрута (км)
  7. Направление (прямое или обратное)
  8. Порядок посадки и высадки пассажиров
  9. Тариф день (стоимость проезда)
  10. Тариф иное (вечернее время)
  11. Вид регулярных перевозок (по регулируемым тарифам/по нерегулируемым тарифам)
  12. Время первого выхода на маршрут (утро)
  13. Время последнего выхода на маршрут (вечер)
  14. Расписание
  15. Вид транспортного средства
  16. Класс транспортных средств
  17. Количество транспортных средств
  18. Экологические характеристики транспортных средств
  19. Дата начала регулярных перевозок
  20. Категория лиц со льготным проездом
  21. Наименование юрлица/ФИО ИП перевозчика
  22. Место нахождения перевозчика
  23. Телефон перевозчика
  24. Координаты прямого трека маршрута
  25. Координаты обратного трека маршрута
Оцениваемая структура набора данных
Коротко о том, что такое структура набора:
это отдельные показатели, по которым заполняется информация по набору. Например, для набора о маршруте такими показателями могут быть
- "номер маршрута"
- "наименование маршрута"
- "протяженность маршрута" и т.п.
Такая информация должна быть указана по каждому маршруту. В итоге у нас получится файл, в котором для каждого отдельного маршрута будет указан четко структурированный и единообразный перечень данных, пригодный для анализа или применения в приложениях или сервисах.

По набору об объектах дорожного сервиса мы искали и оценивали такое содержание (структуру):

  1. Наименование объекта
  2. Вид объекта
  3. Профиль объекта (например: "шиномонтаж грузового транспорта")
  4. Координаты (широта)
  5. Координаты (долгота)
  6. Адрес
  7. Режим работы
  8. Тарифы оплаты (стоимость услуг)
Оцениваемая структура набора данных
Коротко о том, что такое структура набора:
это отдельные показатели, по которым заполняется информация по набору. Например, для набора о маршруте такими показателями могут быть
- "номер маршрута"
- "наименование маршрута"
- "протяженность маршрута" и т.п.
Такая информация должна быть указана по каждому маршруту. В итоге у нас получится файл, в котором для каждого отдельного маршрута будет указан четко структурированный и единообразный перечень данных, пригодный для анализа или применения в приложениях или сервисах.

По набору о перечне остановочных пунктов общественного транспорта мы искали и оценивали такое содержание (структуру):

  1. Наименование остановочного пункта
  2. Номер маршрута
  3. Вид транспорта
  4. Координаты (широта)
  5. Координаты (долгота)
Публикация этих данных рекомендована Открытым правительством и Минэкономразвития:
— Типовой перечень информации для размещения в виде ОД (действует с 2018 года)
— Перечень информации с предоставлением координат, которая размещается в виде ОД (письмо Минэкономразвития) (действует с 2017 года)

Кроме того, мы искали динамические данные, которые являются наиболее ценными источниками транспортных данных как для создания приложений, так и для анализа транспортной системы.
48% - Стакан наполовину пуст

Всего в 168 городах должно быть 504 набора данных. Базовая информация, составляющая их основу (маршруты, остановки, дорожные сервисы), размещена почти наполовину
Найдено 240 перечней
Большая часть перечней размещена в виде простых неподготовленных файлов — графические сканы, pdf, doc, приложения к законам в xls или в виде текста на сайте. Информацию в таких форматах можно использовать в основном для ознакомления, они ориентированы на простых жителей города и на формальное выполнение требований к размещению информации.
Чаще всего публикуются реестры маршрутов - в 149 городах
Это объясняется тем, что их обязаны вести и предоставлять бесплатно по закону «Об организации регулярных перевозок», который определяет содержание реестра. Большинство городов размещает свои реестры в виде нормативных актов или табличных приложений к ним.
Почти треть городов размещает перечни остановок, реже — объекты дорожного сервиса
Рекомендации публиковать такую информацию установлены подзаконным актом — письмом Минэкомномразвития. Таких перечней — 88, при этом информация о списке остановок размещается чаще (53), чем объекты дорожного сервиса (35). Хотя рекомендации действуют с 2017 года, города все еще включаются в публикацию этих сведений.
Всего найдено
без учета форматов:

реестров и перечней маршрутов

перечня остановок

перечня объектов дорожного сервиса

сайта с тарифами проезда

перечня расписаний
(или время старта/завершения маршрута)
16% - Открытых данных "на донышке"

В машиночитаемом формате размещены только 79 из 504 потенциальных наборов
Почти все ОД в формате СSV
Это простейший из «открытых» форматов, который представляет из себя таблицу. Но и он выгодно отличается от скана приложения к нормативному акту, который невозможно использовать. Также он должен быть подготовлен к использованию без предварительного редактирования пользователем — иметь четкую структуру, без заголовков, титульных листов и т. п. — быть «машиночитаемым».
Проблема лицензирования вне раздела "Открытые данные"
Указание на лицензию использование данных (без ограничений) обычно размещается в разделе «Открытые данные». В конце 2016 года разработана типовая лицензия для открытых данных в России. Однако данные с предоставлением координат (остановки, дорожные сервисы) часто размещаются вне раздела ОД, что делает неясным права на их использование.
Наборов с паспортами только треть
Данные должны иметь сопроводительную информацию — паспорт. Из него можно узнать, актуальны ли сведения и когда они будут обновлены, контакты ответственных за данные для связи и другие сведения. Наборов с паспортами 35%, такая сопроводительная информация есть у 27 наборов, актуальных их них всего 14 (указана дата размещения и дата планируемого обновления).
Открытые данные
и информация в машиночитаемом формате на городских сайтах:

наборов с перечнем маршрутов

перечня остановок в машиночитаемом формате

перечней объектов дорожного сервиса в машиночитаемом формате

наборов с тарифами проезда

набора с координатами трека маршрутов
1% - Данные в реальном времени

Наибольший потенциал для создания транспортных сервисов и приложений имеют данные перемещения транспорта в реальном времени
Что это
Сервисы вместо данных
Открытые динамические данные
Что это?
Динамические данные позволяют разработчикам получить доступ к информации, которая обновляется в режиме реального времени, в частности — о координатах положения транспорта на дороге, скорости его перемещения.

Приложения на базе таких данных позволяют отслеживать транспорт на карте, получать уведомление о скором прибытии на остановку (например Bustime) исходя из координат и средней скорости; позволяют вычислить реальный парк ТС на маршруте, собрать статистику и анализировать транспортную систему для выявления проблемных зон.
Сервисы вместо данных
Во многих городах установлены датчики передвижения транспорта онлайн. Например, сервис «Умный транспорт», показывающий перемещение муниципального транспорта на карте, работает с данными более 30 городов.

Однако города предпочитают либо самостоятельно создавать сервисы, либо предоставлять доступ избранным разработчикам, вместо того, чтобы открывать данные. 2ГИС описывает свой опыт общения с поставщиками, с которыми нужно договариваться о получении данных: объяснить зачем, убедить в пользе для горожан и туристов, доказать отсутствие монетизации, заверить в безопасности.
Открытые динамические данные
Из 168 городов в разделах «Открытые данные» динамические данные предоставляют только Казань (с 2014 года) и, с недавних пор, Нижневартовск. Эти города дают разработчикам доступ через API к данным о передвижении автобусов онлайн.

Кроме того, уже после подведения итогов исследования мы нашли динамические данные на сайте Самарского транспортного оператора, который предоставляет доступ к API, в том числе к сведениям о положении транспорта на маршруте. Разработчикам необходимо согласовать получение токена для доступа к данным, а распространяется такая информация по лицензии CC BY 3.0.
0% - Стандартизация

Единообразие в заполнении и форматах данных позволяет использовать сведения из нескольких городов без предварительной ручной обработки.
Однако на практике мы сталкиваемся с привычной для разрозненных источников данных проблемой — отсутствием единого стандарта
Форма
Содержание
Решение
Большая часть размещаемой информации имеет немашиночитаемый характер, в т. ч. в виде сканов, таблиц в pdf, doc, xls таблиц, либо публикуется текстом на сайте. Несмотря на свежие (весна 2018 год) рекомендации публиковать в виде открытых данных набор"маршруты и тарифы", так поступает меньшинство, оставляя формат данных на свое усмотрение.

Рекомендации Минэкономразвития для наборов об остановках и объектах дорожного сервиса выполняются лучше (публикация в формате CSV или XML) — прошло более года, и большая часть таких наборов публикуется в CSV.
Однако такие наборы сложнее найти, часто они публикуются вне раздела «Открытые данные», т.к. рекомендации об их публикации исходят не от Открытого правительства и имеют свои особенности, как следствие — нет паспортов наборов (контакты ответственных за данные, даты актуальности). Кроме того, вне раздела ОД действуют другие условия лицензирования данных.
Даже похожие табличные реестры маршрутов содержат свои особенности в каждом городе — они часто близки, но не идентичны. Для совмещения реестров нескольких городов, данные нужно будет предварительно чистить и приводить к единообразному виду. Кроме того, не все реестры полностью размещают всю информацию, требуемую по закону. А сведения о тарифах проезда и расписании чаще всего публикуется отдельно от реестров маршрутов. Единый порядок содержания и заполнения такой информации не установлен.

Рекомендации Минэкономразвития по заполнению наборов с остановками и объектами дорожного сервиса отличаются от общих стандартов по работе с ОД, а в плане предоставления координат противоречат Методическим рекомендациям по публикации открытых данных (основной документ, на который ориентируются публикаторы). Из-за этого города плохо публикуют паспорта для таких наборов и частично размещают геоданные в местной системе координат, которые малоинтересны разработчикам.
Выход — при разработке обязательных и рекомендуемых наборов необходимо предварительно учитывать те данные, которые могут разместить публикаторы, создавать описание содержимого набора и порядок его заполнения. Важно учесть интересы разработчиков — целевой аудитории, для которой размещаются такие сведения.

Кроме того, уже давно создан де-факто международный стандарт для информации об общественном транспорте GTFS, данные в котором отдают более 2000 транспортных агентств по всему миру. Размещение транспортных данных в этом стандарте позволило бы решить проблему их совместимости для разработчиков, которые работают с источниками из разных городов.
Как быть и что делать?

Основные проблемы, которые стоят на пути развития открытых транспортных данных: отсутствие строгой обязанности их публикации, отсутствие единого подхода к стандарту транспортных данных, закрытость публикаторов. Чтобы преодолеть эти проблемы, нужны системные изменения: разработка стратегии/дорожной карты, закрепление стандартов публикации данных, внедрение зарубежного опыта.

Пока это не произошло, несколько советов для пользователей и разработчиков:
Разработчикам

— иметь план, наработки, работающий прототип приложения или сервиса, уметь доказать пользу и безопасность вашего продукта — все это нужно при общении с владельцем данных и повышения шанса получить нужную информацию

— запрашивать данные у публикаторов. Чем выше будет спрос на такую информацию, тем выше вероятность ее размещения.
Как сделать это более эффективно, мы расскажем в одном из наших ближайших материалов.

— работать с raw-data, скрепить данные. Города размещают немашиночитаемую информацию, создают свои собственные сервисы, с которых можно собрать данные. Это долгий и тернистый путь, и чтобы хоть немного облегчить его, мы подготовили список ссылок на данные, как открытые, так и немашиночитаемые.
Публикаторам

— изучать успешные практики ваших коллег, а также зарубежный опыт, например — внедрять стандарт транспортных открытых данных, за основу которого можно взять распространенный GTFS

— конструктивно отвечать на запросы пользователей, предоставлять востребованные данные в нужном формате, постепенно готовиться к «открытости по умолчанию», когда вся информация должна быть доступна и в виде открытых данных.

— раскрывать данные о своем транспорте, в том числе и динамические. Большое количество немашиночитаемой информации, публикуемой городами, показывает, что информация есть, просто не ориентируется на разработчиков. И зря: обратная связь о качестве ваших данных — это бесплатное тестирование для выявления проблем.
Ссылки
Работаете с транспортными данными? Публикуем все, что нам удалось найти на официальных сайтах: реестры, ссылки на наборы и иную информацию.

Рейтинг городов доступен в CSV и JSON и содержит оценки и ссылки на все данные, собранные в ходе исследования, а в Google-таблицах вы найдете выборку ссылок по основным перечням.
Обложка: Pixels
Иконки: icon8

Статьи по теме
Made on
Tilda