计算机视觉是一个研究领域,旨在助力计算机使用复杂算法(可以是传统算法,也可以是基于深度学习的算法)来理解数字图像和视频并提取有用的信息。
什么是计算机视觉?
计算机视觉的主要目标是,先理解视频和静止图像的内容,然后从中收集有用的信息,以便解决越来越多的问题。作为人工智能 (AI) 和深度学习的子领域,计算机视觉可训练卷积神经网络 (CNN),以便针对各种应用场合开发仿人类视觉功能。计算机视觉包括对 CNN 进行特定训练,以便利用图像和视频进行数据分割、分类和检测。
卷积神经网络 (CNN) 能够针对多种应用场合执行分割、分类和检测:
- 分割:图像分割是指将像素归类为特定类别,如汽车、道路或行人。它广泛用于自动驾驶汽车应用(包括 NVIDIA DRIVE™ 软件堆栈),用于显示道路、汽车和人员。您可以将其想象成一种可视化技术,该技术能够使人们更容易理解计算机的工作。
- 分类:图像分类用于确定图像中的内容。例如,神经网络经过训练后能够识别狗或猫,或者许多其他东西,并且具有高精确度。
- 检测:通过图像检测,计算机可以定位对象的位置。在许多应用中,CNN 会在相关区域周围设置矩形边界框,将对象完全包含在内。检测器也可以接受训练,以便检测图像中汽车或人员的位置。
计算机视觉为何重要?
在体育、汽车、农业、零售、银行、施工和保险等行业,计算机视觉应用非常广泛。得益于目前机器用于识别物体的图像处理器 – 卷积神经网络 (CNN),各种由 AI 驱动的机器纷纷开始采用仿人眼技术来获得更多助力。CNN 已成为当今自动驾驶汽车、石油勘探和聚变能源研究领域的“眼睛”。它们还有助于在医学成像领域快速发现疾病并挽救生命。
数十年来,传统的计算机视觉和图像处理技术已经应用于众多应用和研究工作。然而,现代 AI 技术采用人工神经网络,能够实现更高的性能准确性;高性能计算依托 GPU 取得长足进步,实现超人的准确性,从而在运输、零售、制造、医疗健康和金融服务等行业广泛应用。
在将图像和视频分类为精细离散的类别和分类方面,如同医学计算机轴向断层扫描或 CAT 扫描中随时间推移而产生的微小变化,传统或基于 AI 的计算机视觉系统远胜于人类。在这个意义上,计算机视觉将人类有可能完成的任务自动化,但其准确性和速度要高得多。
当前和潜在的应用多种多样,因此计算机视觉技术和解决方案的增长预测相当惊人,这点不足为奇。一项市场调研表明,到 2023 年,该市场将以惊人的 47% 的年增长率增长,届时将在全球达到 250 亿美元。在整个计算机科学范畴内,计算机视觉是热门、活跃的研发领域之一。
文章来源:https://www.nvidia.cn/glossary/data-science/computer-vision/