计算机视觉中的深度学习

本课程教授应用深度学习最新成果解决围绕图像分类和理解的计算机视觉实际问题。

近几年人工智能已然成为科技、产业乃至整个经济的特征。经过结构改进(引入反馈)的人工神经网络CNN有效解决了非线性分类问题,使得人工智能的准确率提高了10个百分点,满足实用要求。结合日益有效、经济的GPU硬件加速,人工智能高涨、遍及社会各个角落,也深深影响到本学院的科研和研究生培养工作。珠江三角洲面向硕士毕业生的深度学习岗位年薪高出其它岗位5万多。2017年秋季招聘,信息、计算机等数个学院中最高30万年薪的Offer便是深度学习的数据挖掘岗位。造就2019年“华为百万年薪少年”的领域是深度学习、视频、流媒体。本学院已于2019年5月开通深度学习服务器集群,使用最高规格的Nvidia Tesla P100加速深度学习。本学院很多科研工作也逐步转入深度学习应用,尤其那些涉及图像、视频的科研工作、项目。本学院在这方面的理论课程充足、完备:《数字图像处理》、《数字视频处理》、《计算机视觉》、《机器学习》等。问题在于如何尽快从这些课程和相关论文、书籍的理论转入到实践,进行科研、创新,也使得学校购入的包括深度学习服务器集群和后续的仪器、设备物尽其用、充分发挥效能。这方面的特殊性一是众多现成的开源资源。有效利用可大幅缩短迈入实践的时间。实际上庞大的人工智能产业均建筑于几个开源代码上,尤其Google的Tensorflow、Facebook的Caffe2和Torch(两者合为PyTorch)。二是Python成为调用这些资源最简洁方式。寥寥几句Python代码便可完成复杂人工智能处理。

特在此申请开设本课程促进上述深度学习的理论过渡到实践。本课程选用Adrian Rosebrock编写的《Deep Learning for Computer Vision With Python》作教材。其PDF文档和中文译文广泛流传于深度学习社交网站和群组。作为网上“你现在应该阅读的7本最好的深度学习书籍”的最新条目,该书理论与实践相结合,进一步巩固深度学习的基础、原理。并且清晰易懂,使得看似复杂的算法和技巧变得易于掌握和理解。书中包含很多先进的深度学习技术如物体识别(猫、狗、车辆等)、破解图片验证码、人脸特征点检测、人面部表情(喜怒哀乐)检测、人性别和年龄判断、多GPU训练等,更提供可上机实现的包含LeNet/GoogleLeNet、ResNet、SqueezeNet、VGGNet等人工神经网络在内的根据一百二十多万张ImageNet图片数据集的最前沿研究成果。书中许多实用技巧和建议,很少包括在其他书籍或大学课程中。

工学一号馆403实验室多年积累的多媒体方向的实践教学和实验室建设为本课程的开设、开展提供有力支撑。为顺应科技、产业的风向转变和发展,该实验室通过本科毕业设计及其之前的移动多媒体方向综合课程设计、部分硕士生的研究工作从TI DSP芯片、传统视频的实时通话和流媒体点播转到深度学习在图像和视频的应用。迄今已经实现OpenCV、HTML5网页、安卓页面为视频输入输出前端以及WebRTC实时视频通话中的人脸特征点检测、喜怒哀乐等人面部表情检测、人性别和年龄判断、物体识别、人体姿态识别。在2019年度实验室建设中更计划增添支持全景播放与深度学习加速的无线终端、全景摄像机、安卓开发与网络视频智能处理的工作站等一批仪器、设备,以推进这方面的实践教学。毕竟教学内容非纸上谈兵:不仅依赖于实验室及其仪器、设备,更仰仗师资的经验、技巧、成果。


Teacher: 宋立锋