图像识别深入浅出指南

文章目录

  • 什么是图像识别?
  • 图像识别与计算机/机器视觉有何不同?
  • 图像识别是如何工作的?
  • 为什么图像识别软件现在是相关的?
  • 图像识别应用场景有哪些?
  • 汽车行业
  • 安全行业
  • 医疗卫生
  • 零售业
  • 视觉搜索和电子商务
  • 市场营销
  • 在选择图像识别解决方案时,需要注意哪些事项?
  • 有哪些图像识别软件供应商?

image-recognition-1024x576-1

智能手机的兴起,更便宜的相机和基于深度学习方法的图像识别的改进,为图像识别打开了一个新的时代。汽车、游戏和电子商务等不同领域的公司正在采用这项技术。

在选择图像识别解决方案时,其准确性是最重要的因素,然而持续学习、速度和灵活性也可以是重要的标准,这取决于应用。像亚马逊和谷歌这样的科技巨头以及像Clarifai这样的初创公司正在提供图像识别服务。

什么是图像识别?

通过使用图像识别技术,可以区分图片中的一个或多个特定对象。

图像识别是一套算法和技术,对图像中的元素进行标记和分类。图像识别主要关注图像中的内容。图像识别模型经过训练,可以接受一个输入图像,并输出先前分类的标签,以定义图像。图像识别技术是对动物检测和分类物体的技术的一种模仿。

图像识别与计算机/机器视觉有何不同?

尽管图像识别和计算机/机器视觉似乎是相互关联的术语,但图像识别是计算机视觉的一个子集。

图像识别是一种识别图像内容的技术。

计算机视觉涉及根据应用领域获得、描述和产生结果。图像识别可以被看作是计算机视觉软件的一个组成部分。计算机视觉有更多的能力,如事件检测、学习、图像重建和物体跟踪。

机器视觉是同时涉及硬件和计算机视觉软件的视觉系统。因此,计算机视觉和图像识别可以被看作是机器视觉软件的组成部分。

图像识别是如何工作的?

模型训练对于图像识别模型的工作是必要的。深度学习方法是目前训练图像识别模型的最佳表现工具。

为了让一个图像识别模型工作,首先必须有一个数据集。考虑到一个新生婴儿,为了让婴儿识别他周围的物体,这些物体必须首先由他的父母介绍。这个过程对机器来说是类似的,有一个数据集,使用深度学习技术,模型必须经过训练才能执行。

一张图片对计算机来说就是一堆像素。为了从这些数据中得出有意义的结果,有必要从图像中提取某些特征。这个过程被称为特征提取。特征提取允许特定的模式被特定的向量所代表。深度学习方法也被用来确定这些向量的边界范围。在这一点上,数据集被用来训练模型,最后,模型预测某些对象,并将新输入的图像标记为某个类别。

 

matworkscnn-800x204-1

为什么图像识别软件现在是相关的?

图像识别允许从图像中提取有意义的数据,因此有许多应用。然而,图像识别的准确性最近才有所提高,使图像识别在过去的~10年中具有相关性。这些因素促成了图像识别的使用增加:

  • 深度学习的有效性增加: 我们详细解释了深度学习在过去十年中如何变得更加强大。
  • 相机尺寸和成本的降低,加上智能手机普及率的提高和基于图像的社交媒体: 由于智能手机技术和照片分享的社交媒体平台,图像正在激增。

image-recognition-market10

图像识别应用场景有哪些?

汽车行业

自动驾驶汽车背后的技术高度依赖于图像识别。多个摄像机和激光雷达创造了图像,图像识别软件帮助计算机检测交通灯、车辆或其他物体。

安全行业

检测和识别人脸的能力是图像识别技术提供的一个有用选项。家庭安全系统正变得比以前更智能、更强大。

医疗卫生

检测肿瘤或脑卒中以及帮助视力受损的人是图像识别在医疗保健领域的一些使用案例。一项研究表明,使用图像识别,算法检测肺癌的准确率为97%。

零售业

得益于图像识别技术,Topshop和Timberland使用虚拟镜像技术,帮助顾客在不穿衣服的情况下看到衣服的样子。

视觉搜索和电子商务

视觉搜索市场预计到2023年将超过148亿美元。主要原因是视觉搜索与网上购物相结合,顾客的习惯正在以这种方式改变。

市场营销

社交网络和其他媒体中的图像数据可以被分析以了解客户的喜好。例如,这些数据可用于定制营销。Gartner的一项调查表明,图像识别技术可以通过收集客户信息和检测产品放置的趋势来提高销售效率。

amazon-flow-ios-app-800x533-1

在选择图像识别解决方案时,需要注意哪些事项?

一个图像识别解决方案最重要的标准是它的准确性,即它对图像的识别程度。在大多数应用中,像速度和灵活性这样的标准是后来的。

我们详细解释了公司应该如何评估机器学习解决方案。一旦公司有了标记的数据作为测试数据集,他们就可以像我们解释的那样比较不同的解决方案。在大多数情况下,使用公司自己的数据进行训练的解决方案要优于现成的预训练解决方案。然而,如果预训练的解决方案可以达到所需的准确度,公司可以选择不承担建立自定义模型的费用。

用户也不应该急于在一次测试的基础上进行归纳。一个在人脸识别方面表现良好的供应商可能并不是车辆识别解决方案的合适供应商,因为图像识别解决方案的有效性取决于具体的应用。

其他标准包括:

  • 持续学习: 每个人工智能供应商都吹嘘自己能持续学习,但很少有人能做到这一点。理想的解决方案应该是从其错误的预测中学习(机器学习术语中的推论)。
  • 速度:解决方案必须对必要的应用有足够的速度。虽然一个面向客户的解决方案可能需要在几毫秒内做出反应,但一个内部使用的解决方案可以在几小时甚至几天内完成。
  • 对未来需求的适应性: 预见未来的限制是很重要的,解决方案对未来需求的适应性也很重要。
  • 设置和整合的简单性: 该解决方案应该易于设置和使用。由于大多数解决方案将是API终端,它们往往易于设置。

有哪些图像识别软件供应商?

创建一个数据集和一个神经网络模型并从头开始训练并不是利用图像识别技术的最有效方法。科技巨头和一些创业公司提供API,允许任何人整合他们的图像识别软件。还有一些开放源码的API,可以用来建立或改进你的图像识别系统。

还有一些特定行业的供应商。例如,Visenze为视觉搜索、产品标签和推荐提供解决方案。

  • Amazon Rekognition
  • Clarifai
  • Google Cloud Vision API
  • IBM Watson Visual Recognition
  •  Microsoft:Azure Face API,Emotion API,Computer Vision API和Video API
  • OpenCV
  • SimpleCV
  • Scikit-image
微海报