Для обработки данных я использовала ArcMap и QGIS – каждый из них в роли Mr. Good/Dr. Evil в зависимости от ситуации. С учетом размера рабочего набора данных, оба продукта иногда становились весьма несносными, и приходилось проявлять изобретательность, адаптируя форматы и объем обрабатываемых данных к капризам каждого из них.
Берем полигональный слой-гибрид кадастра и OSM, где объекты из второго добавлены к первому по принципу непересечения.
К нему будем добавлять дополнительную информацию из разных источников, цель – заполнить, насколько возможно, следующие поля, единые для всех городов:
- название,
- год постройки,
- адрес,
- стиль (оптимистически),
- архитектор (супер-оптимически),
- фото,
- ссылки на википедию или другие внешние сайты.
Возраст домов для 129 000 объектов дали кадастровые данные, остальное придется поискать. Начнем с культурного наследия.
В исходнике – точки с атрибутивными данными; прицепляем их к базовому слою полигонов ради адреса, названия и ссылки на фото. Где попадается на глаза, убираем подробности жизни и партийной деятельности вождя коммунизма.
Есть проблема – на многие здания попадает несколько памятников истории и культуры. Приходится избавляться от лишних наложений.
Дальше берем Викимапию и приводим данныe сервиса в человеческий вид
: из неструктурированного хаоса – в таблицу с заполненными, где возможно, адресом, названием, годом, иногда стилем и фотографией. Накидываем выжимку точек на базовый слой.
В таблице накопилось несколько полей с адресом и названием из разных источников. В случае с названием выбирать особенно не приходится, действуем по принципу «бери что дают», а вот адресам можно расставить приоритеты. Форма в OSM аккуратно заполнена — сначала возьмем ее. У кадастра немного корявый автоматический формат записи, но большое покрытие – это следующий кандидат. Всему что осталось, прицепляем адрес из Викимапии. Например, многие адреса и названия в Новой Москве родом именно оттуда — этот вклад неожиданно выше, чем фотографии, которые оказались настолько сомнительного качества, что их безопаснее было использовать по минимуму.
Но все же очень хочется иметь красивые фотографии и ссылки на внешние источники. По всем законам приключенческого жанра ближе к финалу появляется великая
wikidata, которая поставляет не очень много в абсолютном количестве (12 000), но очень качественные и интересные фотки и ссылки. У этих данных есть забавный спецэффект — качество импорта для менее популярных объектов — выше: на популярных — много пересечений
, и автоматически иногда липнет нерелевантная информация.
Итак, из кусков мы, наконец, собрали чудище Франкенштейна, симпатичное и совсем не страшное.
Выстраиваем свой архитектурный зоопарк по росту – вернее, по возрасту, который мы узнали для 129 000 зданий: