温雯
暂无内容
守护城市——海量视频内容快速检索
作者:梁方宇,温雯
小故事
2018年底,某市发生一起珠宝失窃案,公安机关从现场视频监控锁定了犯罪嫌疑人。随后,又调取了案发地点周边此前15天的视频监控,共计3000小时,以期从中寻找破案线索。然而3000小时的海量视频,如果依靠人力,2名民警需要2个月才能看完。“视频在,找不到”成为一个尴尬而现实的问题。幸而在视频内容检索技术的辅助下,通过导入嫌疑人作案现场视频,仅仅几个小时就在海量视频中找到多条线索,并顺利定位嫌疑人。正是因为有这样的智能系统,我们的城市越来越安全,然而其中的原理又是如何?
图1展示了一个智能安防系统的典型架构,整个系统主要由终端安防摄像头(感知层)、传输网络(网络层)、存储和处理系统(计算层)三大部分组成,感知层主要负责对城市信息进行实时监控和感知,网络层承担视频数据及计算信息的传输,计算层则主要承载信息的整合及智能计算。
图1智能安防系统
在智能安防系统中,海量视频内容的快速检索是计算层需要承担的一个重要功能,为了实现这一功能,如图2所示,首先需要对数据进行合理的存储,进而通过智能算法实现内容的快速检索。以下对其进行详细介绍。
图2海量视频内容的快速检索基本流程
(1)视频库的构建
安防系统通过不同角落的摄像头获取到了海量的视频信息,这些视频数据是怎样组织、存储以支撑后续的高性能分析的呢?如图2所示,为了节省存储空间,首先需要对视频压缩编码;进而将其进行分布式存储。HDFS、ClusterFS是代表性的分布式存储系统,在扩展性、可用性和可靠性等方面都有很好的优势。非常适宜安防监控视频的存储。另一方面,在视频信息存储的基础上,还需要进一步对视频的元信息进行标记,使其能够支撑基本的查询和回放功能。
(2)索引的组织
为了支撑海量视频内容的快速检索,还需要对视频内容建立良好的索引。主要涉及的索引策略包括结构化索引、语义文本索引、高维特征索引。以下逐一进行介绍:
l结构化索引
原始的视频数据属于非结构化信息,结构化视频是指按照规则将视频的片段组织起来,常采用层次结构,结构由低到高依次为帧、镜头、场景、情节。处理的手段可以包括视频压缩技术、关键帧提取、有效视频数据提取等技术。
l语义文本索引
语义文本索引通过对视频进行分析、提取语义,进而构建索引。具体策略上可以采用人工标签、智能视频分析两种途径。人工方法尽管能够获得较为准确语义标注,但效率极低;智能视频分析技术则能够借助机器的计算获得视频内容的语义标注,更加适合对批量视频的处理。
l高维特征索引
高维特征索引可以是视觉特征、运动特征和音频特征等,也可以是多个角度的特征重新组合或关系描述。当前流行的方法是通过深度学习模型实现特征提取,利用计算机对视频内容进行学习和分析,进而建立高维特征索引。值得注意的是,随着硬件技术的发展,负责视频特征提取的模块既可以在前端也可以在后端;然而模型训练部分由于需要大量的计算资源,依然需要设立专门的计算中心,在后端进行。
(3)视频内容的匹配
在视频内容匹配部分,首先对待检索项进行分析,进而与视频索引仓库进行比对并获取匹配。待检索项可以是视频的基本要素,比如说拍摄日期、天气情况等,也可以是连续的视频帧。匹配的部分通常依赖于相似度模型,利用相似度模型计算视频索引仓库与待检索项的相似度并且进行排序,提高匹配的准确率则需要充分挖掘视频的相关性。文章开头所提及的视频快速检索技术是使用一段视频来进行检索,通过计算机“分析”、“记住”检索视频中嫌疑人的身高体态、走路姿势等关键信息,再比对视频索引仓库检索出有近似特征的视频线索,从而反馈有价值视频片段。
小结
伴随着视频内容的智能分析技术与城市安防系统的融合,可以预见海量视频快速检索技术将为智慧城市的发展赋能,激发更多下游应用的创新能力,并孵化更多新的应用场景,进而对公共安全、城市服务、交通管理、环境管理、生产活动在内的各种需求做出智能响应。但仍存在数据应用不够深入、数据共享不足等问题,但我们相信未来的海量视频技术会不断发展成熟,它不仅可以更加坚实的守护着我们的城市,而且给智慧城市发展包括人们的生活方式带来质的提升。
致谢:广东省科技计划科技创新普及领域项目(2019A141401006)资助