本学位论文研究了如何利用计算机视觉技术结合街景图像,对城市内部的社会经济视觉关系进行建模。其核心研究问题为:若要将基于计算机视觉的社会经济城市动态模型演进为鲁棒且可解释的系统,并由市政部门投入业务化运行以构建更公平的城市,必须解决哪些挑战?
首先,我们将现有的“感知型视觉城市分析(Perceptive Visual Urban Analytics)”范式与可解释性方法相结合,旨在探究街景图像中的视觉要素与房价之间的关联。随后,我们通过专家用户调研,对所生成解释的可解释性与可信度进行了评估。基于上述研究结果,本文进一步聚焦于识别街景场景中的“可行动要素(Actionable elements)”,即市政部门能够干预并改变的视觉要素。为此,我们开发了一种自监督训练方法用于检测城市变迁,并在城市尺度上实现了大规模的变化检测。
针对城市内部街景图像数据源是否存在偏倚的问题,本研究评估了全球街景数据库在城市范围内是否提供了均匀的覆盖。最后,通过分析典型的店面美学特征,我们探讨了单纯依靠视觉数据是否足以有效建模社会经济城市动态。研究结论表明,图像或元数据均无法独立完成精准建模,唯有将二者结合,才是刻画城市动态细微差异的关键。