雨果巴拉:行业北极星Vision Pro过度设计不适合市场

OpenCV分享:计算机视觉研究不同阶段,如何发表研究成果

查看引用/信息源请点击:映维网Nweon

计算机视觉研究的不同阶段,以及如何发表你的研究成果

映维网Nweon 2024年02月23日)在之前的博文中,OpenCV分享了包括朴素起源,背后机制,任务,以及领先品牌如何利用其潜力来推动其业务向前发展等的计算机视觉基础知识,以及成为计算机视觉工程师的指南。

延伸阅读OpenCV深度分享:什么是计算机视觉
延伸阅读OpenCV分享:从新手到专家,计算机视觉工程师的成长指南

在新一篇博文中,这家机构将介绍计算机视觉研究的不同阶段,以及如何发表你的研究成果。

1. 计算机视觉研究的不同阶段

计算机视觉研究可以分为不同的阶段。下面我们来详细看看。

1.1 问题陈述的识别

计算机视觉研究从识别问题陈述开始。这是确定研究项目的范围和目标的关键步骤,包括清楚地理解研究人员通过计算机视觉技术解决的具体挑战或任务。以下是在计算机视觉研究中识别问题陈述的步骤:

  1. 问题陈述分析:第一步是确定计算机视觉中的特定应用领域。这可以与自动驾驶汽车中的对象识别或用于疾病检测的医学图像分析相关。
  2. 定义问题:接下来,我们在所述领域内定义我们想要解决的精确问题,比如对动物图像进行分类或根据X射线诊断疾病。
  3. 了解目标:我们需要了解研究目标,并概述我们打算通过这个项目实现什么。例如,提高医学成像系统的分类准确性或减少误报。
  4. 数据可用性:然后,我们需要分析项目的数据可用性。检查现有的数据集是否适合我们的任务,或者我们是否需要收集自己的数据,比如收集特定对象或医疗案例的图像。
  5. 复查回顾:对所述领域的现有研究和最新方法进行彻底的复查回顾。这将帮助你深入了解当前最先进的技术以及其他人在类似项目中面临的挑战。
  6. 问题制定:我们可以制定研究问题来指导我们的实验,从而帮助我们更好地组织我们的研究。
  7. 度量:接下来,我们定义评估度量,并用来度量视觉系统的性能。常见的指标包括准确性、精确度、召回率和F1分数。
  8. 强调:强调问题的解决将如何在现实世界中产生影响。例如,通过更好的对象来改善道路安全识别或加强早期治疗的医疗诊断。
  9. 研究大纲:最后,概述研究计划,并详细说明用于数据收集,模型开发和评估的方法。一个结构化的大纲将确保整个研究项目走在正确的轨道之上。

我们进入下一个阶段:数据收集和创建。

1.2 数据集收集和创建

创建和收集数据集是计算机视觉研究的关键组成。相关数据集可以促进视觉系统中使用的算法和模型。

  1. 首先,我们需要知道我们要解决什么问题。例如,我们是在训练模型识别照片中的狗,还是在医学图像中识别异常?
  2. 现在,我们需要图像或视频。根据研究需要,我们可以在公共数据集中找到它们,或者可以自己收集。
  3. 接下来,标记数据。例如,如果你在教导计算机识别图片中的狗,你需要框出来,然后说:“这是狗。”
  4. 原始数据可能是一团糟。我们可能需要调整图像的大小,调整颜色,或者添加更多的示例来确保我们的数据集足够清晰和完整。这包括将数据集分成多个部分:
    • 1部分用于训练模型
    • 1部分用于微调
    • 1部分用于测试模型的工作效果
  5. 接下来,确保数据集能够公正地代表现实世界,而不是过于偏向于一个组或类别。

你同时可以与他人分享自己的数据集和研究,从而获得相关的输入和改进。数据集的收集和创建在计算机视觉研究中至关重要。

1.3 探索性数据分析

探索性数据分析(Exploratory Data Analysis/EDA)是指对数据集进行简要分析,以回答初步问题并指导建模过程,例如寻找跨不同类的模式。这个操作不仅见于计算机视觉工程师,同时见于数据科学家,以确保他们提供的数据与不同的目标或结果保持一致。所述阶段包括理解图像数据集的细节。例如,EDA用于发现异常,理解数据分布,或获得进一步模型训练的见解。下面我们来看看EDA在模型开发中的作用。

  • 使用EDA,可以开发数据预处理管道并选择数据增强策略。
  • 我们可以分析EDA的发现如何影响模型架构的选择。例如,需要一定的卷积层或输入图像。
  • EDA对于先进的计算机视觉任务,如对象检测、分割和图像生成同样至关重要。

下面我们来深入探索EDA方法的细节,并为模型开发准备图像数据集。

可视化:

  • 样本图像可视化涉及显示数据集中的一组随机图像,这个基本步骤可允许我们可以了解数据,如照明条件或图像质量的变化。由此,我们可以推断出数据集中的视觉多样性和任何挑战。
  • 如果需要图像增强技术,分析像素分布强度可以洞察整个数据集的亮度和对比度变化。
  • 接下来,为不同的颜色通道创建直方图可以帮助我们更好地理解数据集的颜色分布。这对于图像分类等任务来说是至关重要的一步。

图像属性分析:

  • 另一个关键是理解数据集中图像的分辨率和长宽比。它有助于做出诸如调整图像大小或标准化宽高比之类的决定,这对于保持神经网络输入数据的一致性至关重要。
  • 分析注释对象的大小和分布可以对带注释的数据集产生深刻的见解。这影响了神经网络的设计层和对象尺度的理解。

相关性分析:

  • 对于高维图像数据等先进的EDA处理,分析不同特征之间的关系十分有用。这有助于降维或特征选择。
  • 接下来,至关重要的是要了解图像内的空间相关性,如图像中不同区域之间的关系。它有助于神经网络中空间层次的发展。

类分布分析:

  • EDA对于理解类分布的不平衡非常重要。这是分类任务的关键,不平衡的数据可能导致有偏差的模型。
  • 一旦确定了不平衡,我们就可以在模型训练期间采用像对多数类过采样或对少数类过采样这样的技术。

几何分析:

  • 了解边缘、形状和纹理等图像中的几何属性,这可以帮助你了解当前问题的重要特征。我们可以在选择网络架构中的特定filter或layer时做出明智的决定。
  • 了解不同形态变换如何影响图像分割和目标检测任务非常重要。

序列分析:序列分析适用于视频数据。

  • 例如,分析帧之间的变化可以提供运动、时间一致性或视频数据集或视频序列中的时间建模需求等信息。
  • 识别时间变化和场景变化使我们能够深入了解视频数据中的动态,这对于事件检测或动作识别等任务至关重要。

上面讨论了探索性数据分析和相关技术,下面我们进入计算机视觉研究的下一个阶段:定义模型架构。

1.4 定义模型架构

定义模型架构是计算机视觉研究的关键组分,因为它为机器学习模型如何感知、处理和解释视觉数据奠定了基础。我们分析影响模型从视觉数据中学习和执行对象检测或语义分割等任务的能力的模型。

计算机视觉中的模型架构是指人工神经网络的结构设计。它定义了模型如何处理输入图像、提取特征以及进行预测和分类。

模型架构的组件是什么?下面我们来看看。

输入层:这是模型接收图像数据的地方,主要是以多维数组的形式呈现。对于彩色图像,这可以是一个3D数组,其中颜色通道显示RGB值。这里应用了规范化之类的预处理步骤。

卷积层:它们对输入应用一组filter。每个filter在输入体积的宽度和高度进行卷积,计算filter条目和输入之间的点积,为每个filter生成一个2D激活图。保留像素之间的关系捕获图像中的空间层次结构。

激活函数:激活函数通过将网络引入非线性特性来促进网络学习更复杂的表示。例如,ReLU函数应用一个非线性变换(f(x) = max(0,x)),它只保留正值并将所有负值设置为零。其他函数包括sigmoid和tanh。

池化层:它们用于沿空间维度执行下采样操作,减少网络中的参数和计算数量。例如,常见的最大池化方法从filter区域的一组值中获取最大值。这个操作提供了空间方差,使得输入特征的识别不受尺度和方向变化的影响。

全连接层:它们将一层中的每个神经元连接到下一层的每个神经元。在CNN中,神经网络中的高级推理是通过这种密集层来执行。通常,它们位于网络的末端附近,用于平坦卷积层和池化层的输出,以形成用于最终分类或回归任务的单个特征向量。

Dropout层:Dropout是一种正则化技术,它在训练过程中忽略随机选择的神经元。这意味着所述神经元对激活下游神经元的贡献在向前传递时暂时移除,并且任何权重更新都不会应用于向后传递的神经元。这有助于防止过拟合。

批规范化:在批规范化中,前一个激活层的输出通过减去批均值,然后除以批的标准差进行规范化。这种技术有助于稳定学习过程,并显著减少深度网络训练所需的训练epoch数。

损失函数:预期结果与模型预测之间的差异通过损失函数来量化。分类任务的交叉熵和回归任务的均方误差是计算机视觉中常见的损失函数。

优化器:优化器是一种用于最小化损失函数的算法。它根据损失梯度更新网络的权重。常见的优化器包括SGD、Adam和RMSprop。它们使用反向传播来确定每个权重应该调整的方向,以尽量减少损失。

输出层:这是最后一层,并用于生成模型的输出。输出层通常包括一个用于分类任务的softmax函数,以将输出转换为每个类的概率值。对于回归任务,输出层可能只有一个神经元。

像TensorFlow、PyTorch和Keras这样的框架广泛用于设计和实现模型架构。它们提供预构建层、训练例程以及与硬件加速器的轻松集成。

定义模型架构需要很好地掌握神经网络的理论方面和特定任务的实际方面。

1.5 训练和验证

在开发模型时,训练和验证至关重要。它们有助于评估模型的性能,特别是在处理对象检测或图像分类任务时。

1.5.1 训练

在这个阶段,模型表示为一个神经网络,并通过迭代地改变其内部参数来学习识别图像模式和特征。相关参数是与网络层相关的权重和偏差。训练是从原始视觉数据中提取有意义特征的关键。下面我们来看看如何训练一个模型。

  1. 获取数据集是第一步。它可以以图像或视频的形式用于模型学习。为了稳健性,它们涵盖了各种环境条件、变量和对象类。
  2. 下一步是数据预处理。这包括调整大小、规范化和增加。
    • 调整大小是指所有输入数据在批处理中具有相同的维度。
    • 在规范化中,像素规范化为零均值和单位方差。
    • 增强应用随机变换来人为地增加数据集的大小,从而提高模型的泛化能力。
  3. 数据预处理完成后,我们必须选择适合特定视觉任务的神经网络架构。例如,CNN广泛用于与图像相关的任务。
  4. 接下来,我们初始化模型参数,通常是权重和偏差,可以使用随机值或在简单数据集训练的模型预训练的权重。Transfer learning可以显著提高性能,尤其是在数据有限的情况之下。
  5. 然后,利用SGD或RMSprop对算法进行迭代调整。通过反向传播计算与模型参数相关的梯度。
  6. 算法优化后,数据通过网络进行小批量训练,计算每个小批量的损失并执行梯度更新。这种情况一直持续到损失低于预定义的阈值。
  7. 接下来,我们必须通过微调超参数来优化训练性能和收敛速度。这可以通过优化学习率、批处理大小或网络架构来实现。
  8. 我们需要使用验证或测试数据集来评估模型的性能,并最终通过软件集成或嵌入式设备将模型部署到实际应用之中。

下面我们来看看下一个步骤:验证。

1.5.2 验证

验证是对算法的性能和泛化能力进行定量评估的基础。它保证了模型在应用于实际数据时的可靠性和有效性。验证评估模型对以前未见过的数据做出准确预测的能力,从而能够衡量其泛化能力。

现在我们来探索一下验证所涉及的关键技术。

  • 交叉验证技术:
    • K-Fold Cross-Validation是将数据集划分为K个不重叠的子集的方法。模型训练和评估K次,每一次作为验证集,其余的作为训练集。对结果进行平均以获得稳健的性能估计。
    • Leave-One-Out Cross-Validation/LOOCV是交叉验证的一种极端形式,其中每个数据点用作验证集,而其余数据点构成训练集。LOOCV提供了对模型性能的详尽评估。
  • 分层采样:在不平衡的数据集中,特定类的实例明显少于其他类,分层采样确保了类分布的训练集和验证集之间的平衡。
  • 性能指标:为了评估模型的性能,可以部署一系列为计算机视觉任务指定的性能指标。它们包括但不限于以下内容:
    • 准确性是正确预测的实例与实例总数的比率。
    • 精度是ture positive预测在所有positive预测中的比例。
    • 召回率是true positive预测在所有positive实例的比例。
    • F1分数是准确率和召回率的调和平均值。
    • 平均精度(mAP)通常用于目标检测和图像检索任务,并用于评估结果排序列表的质量。
  • 超参数调优:验证与超参数调优紧密结合,其中模型的超参数使用验证集进行系统调整和评估。网格搜索、随机搜索或贝叶斯优化等技术有助于确定模型的最佳超参数配置。
  • 数据增强:数据增强技术用于测试模型的鲁棒性和在验证期间处理不同条件或转换以模拟输入数据的变化的能力。

训练是模型从标记数据中学习的地方,验证是评估模型的学习和泛化能力的地方。它们确保最终的模型是稳健、准确,并且能够在未见过的数据表现良好,这对计算机视觉研究至关重要。

1.5.3 超参数调优

超参数调优是指系统地优化深度学习模型中的超参数,并用于图像处理和分割等任务。它们控制学习算法的性能,但不从训练数据中学习。如果我们希望获得准确的结果,调优超参数至关重要。

下面我们来看看模型训练的关键超参数:

Batch Size:它是在每个向前和向后传递中使用的训练示例的数量。大Batch Size提供更平滑的收敛,但需要更多的内存。相反,小Batch Size需要更少的内存,并且可以帮助避免局部最小值。

epochs数:epoch数定义了整个训练数据集在训练期间处理的频率。周期过少会导致拟合不足,而过多则会导致过拟合。

学习速率:这决定了基于梯度的优化过程中的步长。如果学习率太高,会导致超调,导致损失函数发散。如果学习率太短,会导致收敛缓慢。

权重初始化:权重的初始化会影响训练的稳定性。像Glorot初始化这样的技术主要用来解决梯度消失问题。

正则化技术:诸如Dropout和权重衰减等方法有助于防止过拟合。模型泛化是通过随机旋转和数据增强来增强。

优化器的选择:模型权重训练期间的更新由优化器决定。它们有自己的参数,比如动量,衰变率和。

超参数调优通常视为一个优化问题。很少有像贝叶斯优化这样的技术可以有效地探索超参数空间,平衡计算成本,并且不会懈怠性能。好的超参数调优不仅包括调整单个超参数,同时包括考虑它们之间的相互作用。

1.6 前所未见数据的性能评估

我们在前面讨论了必须如何进行模型的训练和验证。现在我们将讨论如何针对前所未见的数据评估数据集的性能。

在开发和评估模型时,训练和验证数据集的分割至关重要。不要将其与我们之前讨论的模型的训练和验证相混淆。分割数据集进行训练和验证有助于理解模型在未见数据上的性能。这确保了模型可以很好地泛化到新数据。

  • 训练数据集是用于训练模型、调整参数和推断模式和特征的标记数据点的集合。
  • 在开发过程中使用单独数据集来评估模型,以进行超参数调优和模型选择。这是验证数据集。
  • 然后是测试数据集,这是一个独立的数据集,用于评估未见数据的最终性能和泛化能力。

为了防止模型在相同的数据进行训练,我们需要分割数据集。用的数据集分割比率是70:30、80:20或90:10。较大的部分用于训练,而较小的部分用于验证。

2. 研究出版物

你已经为你的研究论文投入了大量的精力。但我们如何发布自己的研发呢?我们在哪里发布?如何找到合适的计算机视觉研究小组?这就是本节要讨论的内容。

2.1 会议

全球各地都有顶级的计算机视觉会议。它们是展示研究工作、寻找未来合作和建立网络的最佳场所之一。

2.1.1 CVPR

CVPR是计算机视觉领域最负盛名的会议之一。它由IEEE计算机协会组织,每年举办一次。它在展示图像分析、目标检测、深度学习技术等方面的前沿研究论文方面有着惊人的历史。CVPR设置了非常高的标准,非常强调技术方面。它们必须满足以下标准。

  • 论文必须对相关领域有创新性的贡献。这可以是新算法、技术或方法的发展,可以带来计算机视觉的进步。
  • 如果适用,提交的作品必须有其方法的数学公式,如方程和定理证明。这为论文的方法提供了坚实的理论基础。
  • 接下来,论文应该包括涉及诸多数据集的综合实验结果和针对现有模型的基准测试。这是证明你所提出的方法的有效性的关键。
  • 清晰:显而易见,你的撰文和陈述必须清晰简洁。作者需要以技术上合理的方式解释算法、模型和结果。

CVPR是一个非常优秀的社交平台。这是一个与学者、研究人员和行业专家会面、合作和交流思想的好地方。论文的接受率仅为25.8%,所以在视觉领域的认可度令人印象深刻。它通常会带来更大的知名度,以及与知名研究人员和专业人士的潜在合作。

2.1.2 ICCV

ICCV是另一个每年举行一次的顶级会议,为尖端的计算机视觉研究提供了一个优秀的平台。与CVPR一样,ICCV同样是由IEEE计算机协会组织,并吸引了世界各地的梦想家、研究人员和专业人士。主题范围从物体检测和识别一直到计算摄影。ICCV邀请对相关领域有重大贡献的原创论文。提交的标准与CVPR非常相似,你必须提供数学公式、算法、实验方法和结果。ICCV采用同行评议,为接受的论文增加了一层技术严谨性和质量。提交的论文通常经过多个阶段的审查,并对研究论文的技术方面给出详细的反馈。ICCV的录取率通常很低,只有26.2%。

除主要会议外,ICCV同时举办研讨会和教程,提供新兴研究领域的深入讨论和演讲。另外,它提供了与计算机视觉任务相关的挑战,如图像分割和目标检测。

与CVPR一样,它为未来的合作、与同行建立网络和交换想法提供了极好的机会。ICCV接受的论文通常发表在IEEE计算机协会,并提供给视觉社区。这为研究人员提供了显著的可见度和认可。

2.1.3 ECCV

如果你正在寻找全球顶级计算机视觉会议,ECCV是另一个综合会议。ECCV非常重视论文的技术含量。就像上面讨论的两个会议一样,它强调研究人员如何将数学基础、算法、详细的推导和证明与广泛的实验评估结合起来。

根据ECCV格式指南,研究论文的理想范围是10到14页。它采用双盲同行评议,研究人员必须匿名提交意见。

ECCV同时为合作和建立联系提供了巨大的机遇。接受率仅为31.8%,研究人员可以从学术认可、高知名度和引用中受益。

2.1.4 WACV

WACV是一个顶级的国际计算机视觉活动。就像其他会议一样,它每年举行一次。它的录取率低于30%,并吸引了领先的研究人员和行业专业人士。会议通常在一月的第一个星期举行。

2.2 期刊

作为一名计算机视觉研究人员,你必须在期刊发表自己的作品以展示自己的发现,并对相关领域提供更多的见解。

2.2.1 TPAMI

TPAMI主要关注机器智能、模式识别和计算机视觉的各个方面。由于手稿允许开放获取,论文可以不受限制地访问。

关于传统的手稿提交,IEEE计算机协会有各种获奖期刊可供发表。你可以浏览适合自己研究的不同主题。你需要考虑的因素是投稿时间、影响因子等文献计量分数和出版费用。

2.2.2 IJCV

IJCV为新的研究成果提供了一个平台。 IJCV每年出版15期,为计算机视觉领域提供高质量的原创贡献。文章的长度从10页的普通文章到30页的调查论文,并提供了最先进的演示和结果。研究必须涵盖计算机视觉的数学、物理和计算方面,如图像形成、处理、解释、机器学习技术和统计方法。研究人员在IJCV发表论文不收费。它不仅是研究人员展示论文的门户,而且是深度学习、人工智能、机器人技术等领域信息的金矿。

2.2.3 JMLR

JMLR成立于2000年,是一个综合性研究论文的电子和纸质出版物论坛。这个平台涵盖了机器学习算法和技术、深度学习、神经网络、机器人和计算机视觉等主题。JMLR免费提供给公众。它是由志愿者管理的,而论文都会经过严格的审查。

当你花了几周甚至几个月的时间写论文时,为什么不让你的努力得到应有的认可和信任呢?上述期刊和会议为研究人员提供了展示其研究的终极门户,并为学术和行业合作提供了大量机会。

3. 结论

总之,计算机视觉研究是一个有趣的旅程。从理解问题陈述的初始阶段到在计算机视觉研究小组中发表的最后步骤,我们已经全面地深入研究了每一个问题。

任何研究,无论大小,每个人都可以为不断发展的计算机视觉领域做出自己的贡献。

我们在未来将继续为你提供相关的介绍,敬请关注。

本文链接https://news.nweon.com/118248
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯