关键词:大数据应该 路口匹配系统 聚类分析 分类判定
振业优控研究院大数据研究小组的小伙伴们有新的尝试了!(此处应有掌声)
医生平时给病人看病的时候,并不是对每个病例都从零开始思考新的治疗方法。当医生看到一个病人时,会根据这个病人的几个重要的症状,类比以前看过的病例的特点,诊断出病人得了什么疾病,然后在以前类似病例的治疗方法的基础上,给出这个病人的治疗方案。
其实在医生的大脑里面,对大量历史病例按既定特征进行归类,就是用一种“聚类分析”的思想。当诊断一个新的病例归属到哪一类相似病例的时候,用的正是“分类判定”的技术。
而我们在各地信号优化项目的实战中,技术人员经常会发现当前项目与之前某个路口的情况非常类似,这时候技术人员就会想把这个相似的案例找出来比对。但是问题来了,案例要不就是时间久远,要不就是数据管理不善,根本找不到相关的记录了,如果这个时候有个系统能够自动推荐相似的案例以供参考,那该多好!
而振业优控的交通信号优化服务团队有多年的项目积累,掌握了超过3600个路口的基础数据,为什么不从这些数据挖掘出有价值的信息?(ps:我们平时用自主研发的台账系统来收集和整理相关数据)。
振业优控研究院大数据研究小组深入分析了已掌握的路口基础数据,利用聚类的方法,建立了路口匹配与推荐系统。该系统会根据输入的路口基本信息,自动分类匹配,从路口库里查找与之相似的路口推荐给交通工程师,这样交通工程师最后给出的优化方案会更科学,也更有底气。
图1 技术流程图
第一步 路口数据结构化和清洗补全:将路口台账非结化数据进行结构化存储,下图是部分路口台账数据图形表达(VISIO图),数据准备的工作就是把这些图像化的数据转换成结构化的数据,以数据表来组织,存放到数据库中。通常通过各种检测手段得到的数据多少会存在错检、漏检、无数据的情况,所以在使得前还要对存在问题的数据进行清洗,对不完整的数据进行补全。
图2 路口台账数据(非结构化)
图3 结构化的路口台账数据表(部分)
第二步 路口特征提取:在结构化的数据中,挑选可以反映路口特征的数据,整理成路口特征数据表。反映路口特征的数据有:进口数量、车道转向及数量、渠化情况、行人过街、灯组、控制方案、流量水平等。
图4 路口特征表结构(部分字段)
第三步,也是最重要的一步。聚类分析:通过聚类算法将路口划分不同的类型。
首先通过粗聚类的方法,剔除较为特殊的路口(畸形路口),将剩余的路口归为常规路口。在常规路口中,设计精细化的聚类算法,进行类型划分(下图为聚类结果经过MDS降维后在二维空间的投射)可以看出分类效果较好。基于上述的聚类结果,再在每一个类别的基础上再进行聚类,进一步细化聚类结果。
图5 路口聚类结果
第四步 形成路口库:整理聚类后的数据,形成路口库。
第五步 新路口分类
路口匹配系统以路口的台帐数据作为输入,系统自动将台账数据进行结构化存储,并提取相应的特征数据。采用集成学习的分类算法(boosting),与经过聚类形成的路口库进行匹配,找出与之相似的路口,将路口相关的台账、方案、优化记录、优化方法等信息推荐给用户。
图6 路口匹配系统实施
举个栗子,下图是是待匹配路口的台账(VISIO图)。经过系统运算后,找到与之最为相似的三个路口(图8-10)。由路口VISIO图可以观察到,将匹配结果第一位的广海大道-同福路交叉口顺时针旋转90度,其几何特征与待匹配路口基本重合,匹配效果较好。结果二和结果三也有较高的相似度。
图7 待匹配路口
图8 匹配结果一
图9 匹配结果二
图10 匹配结果三
路口匹配与推荐系统是我们团队对已掌握的路口数据的综合利用案例之一,是大数据技术的一个小应用,该应用还在进一步的完善当中。为了保障系统能够正常运行,除了定期更新聚类及分类算法,不断完善相关的程序之外,我们还对数据的采集、整理、存储等阶段设计了规范化的操作流程,以保证数据获取的可持续性、数据的多样性和数据的质量。
大数据的真正含义不在“大”,而在“有用”,把数据变得有价值一直是我们团队努力的方向。