攻读计算机视觉和机器学习硕士是一种怎样的体验?

人工智能就业市场持续火爆,越来越多的学生加入到这个领域。但是,计算机视觉和机器学习研究生学习的先决条件是什么?你会学到什么?攻读机器学习硕士学位是什么感觉?英国萨里大学机器学习与计算机视觉硕士 Richmond Alake 对上述问题给出了较为全面的解答。

机器学习硕士的先决条件

在机器学习高级学位期间,您需要选择反映您在机器学习领域未来专业发展的研究主题。

机器学习领域的任何课程都涵盖了很多知识。因此,本文作者所攻读的硕士学位,在教学前将首先确保学生满足以下先决条件。

进入正题,本文作者将介绍他在机器学习攻读硕士学位期间所学的知识。

计算机视觉

作者首先介绍了机器学习硕士期间遇到的最强大的课程模块:计算机视觉。计算机视觉和深度学习是本文作者非常感兴趣的机器学习领域。

在过去的几十年里,各种媒体都对计算机视觉技术的进步赞不绝口。面部识别系统的出现是该领域的一项重大成就,必须提及。面部识别系统可以在一些主要的国际机场、银行和政府机构中找到。

就作者而言,他在攻读硕士学位期间对计算机视觉的研究非常有条理,即一开始并没有直接实现和分析最先进的技术。

事实上,您需要退后几步,从学习最基本的图像处理技术开始,这些技术是在人们今天使用的高级计算机视觉技术之前开发的。

在深度学习课程中,作者了解到卷积神经网络 (CNN) 的较低层从输入图像中学习低级模式,例如线条和边缘。但在将 CNN 引入计算机视觉领域之前,已经有一些基于启发式的技术用于检测感兴趣区域 (ROI) 和从图像中提取特征。

因此,作者了解了基于启发式的技术是如何工作的,并将这些知识应用到实际应用中,而对计算机视觉的研究确保了他理解机器学习领域的基础知识。

以下是作者在研究计算机视觉时学到的一些关键主题和术语:

1.Scale Invariant Feature Transform (SIFT):这是一种计算机视觉技术,用于为图像生成关键点描述符(特征向量)。生成的描述符包含一些特征信息,例如边缘、角点、斑点等。描述符还可以用于检测图像中不同尺度和失真的对象。SIFT已广泛应用于物体识别、手势识别、物体跟踪等应用。SIFT 技术的关键在于它检测到的特征对于任何仿射变换(例如缩放、平移和旋转)都是不变的。SIFT原论文的链接如下:~lowe/papers/ijcv04.pdf。

2.方向梯度直方图(HOG):这是一种用于从图像中提取特征的技术。提取的特征是图像中的边缘和角落提供的信息,更具体地说是显着区域中的对象。简而言之,该技术可识别图像中边缘(渐变)、角、线的位置,并获取有关边缘方向的信息。HOG 描述符生成一个直方图,其中包含从图像中检测到的边缘和方向信息的分布。这种技术可以在计算机视觉应用和图像处理中看到,更多细节见:.

3.主成分分析(PCA):这是一种用于降低特征丰富数据集维数的算法。降维是通过将数据点从高维投影到低维平面来实现的为什么计算机要用数字,这仍然保留了信息并最大限度地减少了信息丢失。

此外,其他值得一提的主题包括:

那么作者在学习初期有什么样的发展研究呢?

早期,他开始开发一些基于计算机视觉技术的应用程序。对象分类是一个比较热门的话题,学习它的一些基础知识和实现方法也比较容易。具体来说,他想在 Matlab 环境中开发一个视觉搜索系统。

Matlab 是一种用于高效数值计算和矩阵处理的编程语言,Matlab 库配备了一套算法和可视化工具。

由于作者过去有Java、Java、Python等语言环境的开发经验,很快学会了Matlab编程语法,因此可以专注于计算机视觉研究。

有关视觉搜索系统的更多信息

作者想要实现的视觉系统相当基础,其工作原理如下:用户将查询图像传递给系统,系统返回一组与输入查询图像相似的图像。值得一提的是,系统包含一个存储图像的数据库,系统从中提取返回的结果图像(输入查询图像、输出结果图像)。

该视觉系统没有使用任何花哨的深度学习技术,而是使用了前面提到的一些传统机器学习技术。

您只需将 RGB 图像转换为灰度图像并将特征提取器应用于图像;之后,系统提取图像描述符并在 N 维特征空间中对其进行表征。在这个特征空间中,你可以通过计算两个 N 维数据点之间的欧几里得距离来得到相似的图像。

更深入的理解和应用

理解计算机视觉不仅限于处理图像,人们还希望在视频中使用这些算法和技术。实际上,视频只是一系列图像,因此您无需在输入数据准备和处理方面学习任何新知识。

如果您使用的是像 YOLO、RCNN 这样的对象检测框架,那么对一系列图像进行对象跟踪似乎非常简单。但要意识到进行计算机视觉研究不仅仅是调整预训练网络。在这里,您需要了解该领域在过去几年中的发展情况,而获得扎实理解的最佳方法是按时间顺序概述各种传统技术。

因此,对于目标跟踪任务,作者研究了以下课题:

与计算机视觉工程师的相关性

事实上,这篇论文的作者并没有使用过任何传统的机器学习分类器,近期也不会使用。

但为了让读者了解上述技术与成为计算机视觉工程师的相关性有多大,作者以自动驾驶汽车、车牌识别器和车道检测器为例进行说明,所有这些都结合了一个到前面讨论的一个。两种方法。

深度学习

深度学习技术是计算机视觉研究的自然延伸。一些深度学习主题已经包含在计算机视觉模块中,而其他深度学习主题是对传统计算机视觉技术的扩展或改进。

深度学习课题的教学与作者的计算机视觉研究类似。也就是说,在继续学习高级主题和应用程序开发之前,对该领域的基础知识有充分的了解。

深度学习研究始于了解图像构建块(像素)的最基本单位。您很快就会了解到,数字图像是由许多像素组成的网格。

在了解了最基本的图像基础知识后,您将继续学习如何将图像存储在系统内存中。“帧缓冲区”是指像素存储在系统内存中的位置(大多数 MOOC 不谈论这个)

此外,作者还了解了相机设备如何捕捉数字图像。他不得不承认,对智能手机相机如何捕捉图像有一些直观的了解是很棒的。

然后他很快介绍了一些更酷的传说。

第一个是卷积神经网络。如果你不了解卷积神经网络 (CNN),就无法学习深度学习,它们密切相关。

图片[1]-攻读计算机视觉和机器学习硕士是一种怎样的体验?-老王博客

作者的研究展示了过去 20 年 CNN 诞生和发展的时间表(从 LeNet-5 到 RCNN),以及它们在替代传统工作流程以完成目标识别等典型计算机视觉任务中的作用。

作者的研究对深度学习早期提出的不同 CNN 架构进行了探索。通过对AlexNet、LeNet、GoogLeNet等具体架构的研究,他对卷积神经网络的内部结构及其在解决物体检测、识别和分类等任务中的应用有了深入的了解。

此外,作者学习的一项重要技能是如何阅读研究论文。

阅读研究论文不是老师直接传授给你的技能。如果您对深度学习和任何其他研究很认真,那么了解信息和研究的来源很重要。使用深度学习框架的预训练模型非常容易。尽管如此,如果你想从事高级研究工作,你应该了解每个架构的技术和组件的内部细节为什么计算机要用数字,这只能在研究论文中找到。

以下是作者总结的深度学习模块中涉及的一些主题:

其他值得注意的主题和子主题包括神经网络、反向传播、CNN 网络架构、超分辨率、手势识别、语义分割等。

与计算机视觉工程师的相关性

这基本上就是本文作者所做的。到目前为止,他已将人脸检测、手势识别、姿势估计和语义分割模型集成到游戏边缘计算设备中。

具体来说,在作者目前的工作中,他已经实现、训练和评估了大量的深度学习模型。如果你想跟上最前沿的算法、工具并与最前沿的公司合作,深度学习是一个可以让你站在人工智能现实世界业务发展前沿的领域。

撰写硕士论文旨在使您能够利用所获得的所有技能、知识和直觉来设计解决现实问题的方案。

作者的论文是基于计算机视觉技术对四足动物进行运动分析,使用的关键计算机视觉技术是姿态估计。

这是他第一次接触深度学习框架,因此他决定使用使用卷积神经网络的深度学习解决方案进行运动分析。

在选择深度学习框架时,他在 Caffe 和 Keras 之间来回走动,但最终选择了 PyTorch,因为该框架提供了特定于任务的预训练模型。作者使用的编程语言是 Python。

以下是作者在撰写论文时学到的一些东西:

更多关于运动分析研究

运动分析是指从清晰的运动图像中获取运动的信息和细节,或者对表示序列到序列的运动描述的图像进行排序。运动分析的应用和操作可以产生关于运动感知和关键点定位的最直接的细节。复杂的应用程序允许我们使用序列相关图像逐帧跟踪目标对象。

目前,运动分析及其各种形式的应用在利用时间序列数据时带来了显着的好处和丰富的信息。不同行业(如医疗保健、制造、机械、金融等)受益于运动分析提供的结果和信息。在这些行业中,运动分析的各种用例和方法可以解决问题或为消费者创造价值。

纵观整个行业,运动分析的多样性间接引入了种类繁多的运动分析任务子集,例如姿态估计、物体检测、物体跟踪、关键点检测等不同的子集。

关于论文的更多信息

作者的硕士论文提出了一种使用计算机视觉和机器学习技术进行运动分析的方法。该方法使用四足合成图像数据集训练预训练的关键点检测网络。

Keypoint-RCNN 是 PyTorch 库的内置模型,扩展了原始 Fast-RCNN 和 Faster-RCNN 的功能。具体来说,论文中的方法修改了在 COCO 2017 对象检测和分割数据集上预训练的 Keypoint-RCNN 神经网络架构,并用合成的数据集重新训练最后一层。

通过扩展人类 17 关节关键点检测基线框架,作者展示了该框架的扩展变体,可以预测几个生成的 26 关节四足动物的主要关节位置。

作者使用定量和定性评估策略,展示了改进的 Keypoint-RCNN 架构在预测人工四足动物关键点方面的视觉和度量性能。

论文部分的实验结果。

紧跟最新研究并不断学习

机器学习领域瞬息万变,笔者的课程学习内容对应了该领域2018-2019年的发展现状。现在到了 2020 年,我们已经看到机器学习对其他领域的巨大贡献。因此,如果您参加了机器学习课程并了解了本文作者未在本文中涉及的主题或主题领域,请不要感到惊讶。

不要忘记,在人工智能中,您不仅需要学习创建模型。作为一名机器学习从业者,你必须跟上最新的研究,所以要不断学习。

原文链接:

重度课程独家官网:cvlife.net

1、Visual SLAM基础:疫情在家,想开始SLAM实战,哪个开源框架最适合学习?

2、机器人导航运动规划:机器人核心技术运动规划:让机器人想去哪里就去哪里!

3、详解Cartographer:Google开源的激光SLAM算法Cartographer为什么这么牛?

4、深度学习3D重建一共60场讲座上线!详细的深度学习3D重建网络

5、3D视觉基础详解视觉深度估计算法(单目/双目/RGB-D+特征匹配+极线校正+代码练习)

6、 VINS:Mono+Fusion SLAM 面试官:看你简历上的VINS精通,请现场推送预习!

7、图像3D重建课程:视觉几何3D重建课程(第二期):密集重建、曲面重建、点云融合、纹理映射

8、系统全面的相机标定课程:单目/鱼眼/双目/阵列相机标定:原理与实践

国内最好的SLAM和3D视觉学习社区↓

技术交流微信群

也欢迎投稿合作联系:simiter@126.com

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论