linjiet

目标检测(一)-R-CNN系列

有关传统机器学习方法和深度学习方法在目标检测领域的一些总结。

传统机器学习方法

Detection based on Adaboost

Ref：Rapid Object Detection using a Boosted Cascade of Simple Features.(CVPR2001)

这个方法是一个二分类方法，判断是还是不是人脸。主要包括了以下内容：

文中提出了一种新的图片表达方式和三种特征，新的图片表达方式是便于计算特征，而特征本质是一个值，每一种特征会在scale和location维度上变动，所以特征的个数相当庞大。在检测阶段，一个feature也可以在scale上变化，而且因为新的图片表达方式，它不会因为scale因数的不同而导致计算时间的变化，最后也可以在location上进行变化，在输入图片上不断移动。
文中使用稍作修改的AdaBoost算法学习一个强分类器，弱分类器会对应一个特征，它会对应一个阈值，阈值会将特征的值划分为人脸和非人脸两个类别；
文中提出一种退化的决策树strong classifier cascade，每一层就是一个AdaBoost学习的强分类器，每一层的作用就是为了过滤非人脸图片，最后没有被过滤掉的即为人脸图片。作者在训练级联的分类器时，也有他相应的策略，包括了因后面层面对的数据更难而提出降低或提高阈值来提高FPR以保证TPR、使用target来确定每一层强分类器的feature个数和整体的级联层数以寻求在精度和效率上的权衡等。

针对不同尺寸的objects识别

在这个方法中不同于其他如[1]和[2]，这些方法为了识别不同的尺寸的objects，对图片进行了下采样，构成一个图片尺寸的金字塔，而检测器的尺寸不变，检测器会将其内部的数据传入分类器中进行解析。而这篇论文中的方法不会改变图片的尺寸，而是以1.25为因数缩放级联检测器的输入尺寸，因为其的features的计算时间不会因为尺寸的变化而发生变化，这在不同尺寸objects的识别上不会增加额外的时间。
与[1]和[2]检测器扫描一样，这篇论文的检测器也会在图片上以一定步长进行扫描。

[1] H. A. Rowley, S. Baluja, and T. Kanade. Neural network- based face detection. TPAMI, 20:23–38, 1998.
[2]P. Viola and M. Jones. Robust real-time face detection. IJCV, 57(2):137–154, May 2004.

优点

迅速、准确

缺点

与深度学习方法相比，它所能处理的数据相当有限，且仅仅支持object or background识别；和很多其他机器学习方法一样，它利用了图片的像素区域梯度来进行目标的检测，是不能够解决复杂场景下的目标检测的；它所使用的特征，虽然有垂直、水平、对角线梯度信息，但是仅仅使用一个特征数值作为根据进行分类，可以想象丢失的信息非常多；这个算法仅仅做了单对象的定位，没有涉及单对象分类和多对象定位分类。

selective search

此方法是一种产生候选区域的方法，输出可以用于分割和检测。

特点

基于图像中物体的层级关系，从小region融合产生更大的region；
基于多种颜色空间，不同颜色空间面对亮度等图片特征有不同的不变性；
结合多种相似性度量，实现最相似region的融合；
产生多种起始的小区域；
合并所有的region，并对他们排序，以便使用者能够在数量和质量上进行权衡；
最后的排序主要解决两个问题，防止模型输出过于强调大区域，对于那些多个策略都产生的相同区域应该具有更前的位置。

优点

不需要标签，不需要学习，独立于class。

缺点

个人认为selective search的最后排序的效果并不是很好，在R-CNN的论文中提到了region的缺失和定位的粗糙，最后的排序并没有基于region里面的数据进行判断，而是通过提高小区域位于高rank和重复区域位于高rank的可能性，以此作者认为是具有高的rank的region更可能包含object。

Ref

[1]J.Uijlings,K.vandeSande,T.Gevers,andA.Smeulders.Selective search for object recognition. IJCV, 2013.
[2]R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014.

深度学习方法

目标检测模型的mAP评估方法

mAP评估模型主要是用于估计recall-precision的面积，我们自然希望当recall一定时，precision越大越好，即面积越大模型越好。
假定我已经有了一个训练好的模型，它的输出是一系列的预测框伴随着置信度，现在我要评价这个模型的好坏。不同的benchmark数据集使用的mAP方法有些许不同。
主要有两个量决定了mAP值，分别是recall统计量和precision统计量。

需要用到的统计量

recall：反应了检测出来的TP的数量占ground truth的比例，通过指定某一个未知的置信度实现，我们也称这个置信度阈值为rank，我们用rank之上的positive预测结合IoU阈值为0.5（不同数据集IoU策略不一样）计算TP FP，从而得到recall值。
precision：计算TP占rank之上的比例，反应了我的模型的效果。对应于一个recall值，在mAP中需要计算大于或等于给定recall值的recall范围中precision最大的值，作为对应于给定的recall值的precision。（PS：这里的precision反应的是要实现给定的recall其对应的精确度，其值必定是反映模型在此recall的最优precision，个人认为既然我能够有更高的recall且precision更大，那我理应选择更大的recall对应的更大的precision，这样的值更加符合模型在这个recall的精确度；第二个原因是因为recall是一系列给定的值，先不说模型的recall值能不能够准确与其匹配，recall对应的precision值存在偶然性，并没有上述方法的precision更能反应模型的能力）

计算

在PASCAL VOC，给定一个recall[0,0.1,0.2,…,1]分别计算不同recall的precision，再求平均得到AP，每一个类均计算AP，最后做平均得到mAP。

R-CNN

它是早期的基于深度学习的目标检测算法，以至于在它的方法里面还包含有机器学习的方法。
它包含三个模块(i.e. selective search、CNN、class-specific linear SVMs)和一个optional bounding box regression（为了提高最后输出region的准确性），主要的三个模块也是借鉴了其他文章中的方法，神经网络的作用只是起到了提取特征的作用，神经网络提取的特征在数据维度上和质量上都优于传统的机器学习方法，所以相比state-of-the-art这篇文章的模型大幅度提高了mAP值。同时这篇文章也使用了非最大值抑制算法（non-maximum suppression），用于在测试期间去除一些与更高分数的region产生的IoU大于某个学习的阈值的低分数region，每个类独立地进行非最大值抑制。
其中在训练时一个mini-batch的大小是128，测试时是取了2000左右的proposals进行提取特征、分类。

优点

此篇文章开创性得把CNN应用于目标检测，得到了非常好的效果。

缺点

R-CNN模型是一个非端到端训练的模型，需要先训练好CNN然后再训练SVMs还有可选的回归；虽然对于所有的类，它仅仅使用一个CNN，但是每一个类都有一个SVM分类器，当类型很多时，模型将会难以去训练。因为multi-stage，导致了需要存储大量的中间feature，去训练SVM和回归。因为一个mini-batch或者测试阶段的前向传播包含了很多的proposals，它们一定存在重叠部分，也即意味着重复地计算，所以运行时间多，效率低下。

Ref

[1]R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014.

Fast R-CNN

这里提出了RoI和RoI池化层的概念，RoI池化层是来源于SPPnets所使用的spatial pyramid pooling layer。

特点

实质上是基于ImageNet中的网络的改变；
作者为了充分利用sharing computation，所以没有像SPPnets那样选择在所有图片的region中采样，而是使用了基于等级的采样，即先采样两张图片，然后从每张图片采样64个region；
使用了RoI max pooling layer来实现region特征size的统一化，并实现了这一层反向传播梯度的计算（部分输入的梯度+累计）；
class-specific的全连接回归层，预测偏移量refine bounding box；
提出了一个multi-task loss，将分类误差和偏移量误差进行了融合
可以使用两种Scale invariance解决办法；
不必使用具体的某个神经网络，而是将这个神经网络作为主干网络，可以从分类网络中进行选择；
SPPnets中使用了 spatial pyramid pooling，它们是由输出尺寸不同的RoI max pooling layer构成，所以作者在spatial pyramid pooling做了简化。

优点

相比于R-CNN，增加了多个全连接层，实现回归预测bounding box偏移量，用于各个类refine bounding box；相比于R-CNN，作者受到了SPPnets的启发，于是实现了sharing computation，减少了重复计算；相比于SPPnets的sample实现，作者的sample更有效率，也并没有影响迭代轮数；

缺点

同样使用了selective search产生proposal region；

Ref

[1]K.He,X.Zhang,S.Ren,andJ.Sun.Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV,2014.

Mask R-CNN

低分辨率的feature map（高层）对应的感受野更大，相当于使用更少的像素表达图片，高分辨率的feature map（底层）对应的感受野更小，相当于使用较多的像素表达图片。所以对于大的RoI我们使用低分辨率feature map进行切割得到RoI的特征，对于小的RoI我们使用高分辨率feature map进行切割得到RoI的特征；
FPN（Feature Pyramid Network）是一种特征学习网络，正如它的名字一样，它主要应用于多尺寸的目标检测任务。它拥有bottom-up和up-bottom的特征融合，使其具有更强的语义和空间信息。
取消了Faster R-CNN中RoI pooling的两个取整操作，分别是取整RoI的位置和进行RoI pooling时grid位置的取整。但在Mask R-CNN中保留了小数，作者提出了新的池化方法RoI Align，这个方法去掉了两个正数化操作，首先它会将RoI进行均等地划分，然后作者在每个cell中使用了4个采样点（4是超参），这四个采样点的坐标是浮点数，需要使用双线性插值基于这个采样点所在的feature map 的cell，计算这个点的值，然后对这四个点进行max pooling（PS:当采样点数为1时，也能取得相似的效果，这样计算量少了效果提高了，得益于非整数化处理）；
在mask分支输出分别对于不同类进行训练其对应一层，这样大大减少了类间竞争，提高了性能；

Ref

[1]https://zhuanlan.zhihu.com/p/37998710

你可能感兴趣的:(计算机视觉)

Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
视觉Transformer还有哪些点可以研究？怎么应用？计算机视觉工坊 3D视觉从入门到精通学习算法开源
0.这篇文章干了啥？今天笔者为大家推荐一篇最新的综述，详细总结了Transformer的网络架构、优化策略、发展方向，还会定期更新Github，研究注意力机制的小伙伴一定不要错过。注意机制有助于人类视觉系统有效地分析和理解复杂场景，它能够聚焦于图像的关键区域，同时忽略无关紧要的部分。受此概念启发，注意机制已经被引入到计算机视觉（CV）中，以动态地为图像中的不同区域分配权重。这使得神经网络能够专注于
Python_day54Inception网络及其思考且慢.589 Python_60 python 开发语言
一、inception网络介绍今天我们介绍inception，也就是GoogleNet传统计算机视觉的发展史从上面的链接，可以看到其实inceptionnet是在resnet之前的，那为什么我今天才说呢？因为他要引出我们后面的特征融合和特征并行处理这些思想。Inception网络，也被称为GoogLeNet，是Google团队在2014年提出的经典卷积神经网络架构。它的核心设计理念是“并行的多尺度
AI 绘画 + 编程：10 分钟生成个性化艺术作品大力出奇迹985 人工智能
本文围绕Python+OpenCV实现自动人脸识别门禁系统展开，先概述系统的基本构成与作用，再从系统核心技术、开发实现步骤、功能扩展方向、实际应用场景及优化改进策略五个方面详细阐述，最后总结系统的价值与发展前景，为相关开发和应用提供全面参考。一、系统核心技术解析人脸识别技术是门禁系统的核心，其关键在于对人脸特征的精准提取与匹配。OpenCV作为开源计算机视觉库，提供了丰富的人脸检测算法，如Haar
【AI大模型：前沿】43、Mamba架构深度解析：为什么它是Transformer最强挑战者？无心水架构 transformer Mamba Mamba架构 AI大模型系统开发实战 AI大模型高手开发 AI大模型系统实战
Transformer架构自2017年诞生以来，一直是NLP、计算机视觉等领域的“统治级”模型架构。但随着序列长度需求的增长（如128K长文本处理、基因组学超长序列分析），其自注意力机制的O(n2)O(n^2)O(n2)计算复杂度成为难以逾越的瓶颈。2023年底，由AlbertGu和TriDao等人提出的Mamba架构，通过创新的“选择性状态空间模型（SelectiveSSM）”实现了线性复杂度（
《揭秘AI应用架构师在智能虚拟人设计系统中的创新思维》 SuperAGI架构师的AI实验室人工智能 ai
揭秘AI应用架构师在智能虚拟人设计系统中的创新思维关键词：AI应用架构师、智能虚拟人、系统设计、创新思维、自然语言处理、计算机视觉、实时交互摘要：智能虚拟人已从科幻走进现实，无论是直播间的虚拟主播、手机里的智能助手，还是元宇宙中的数字分身，它们背后都离不开AI应用架构师的“隐形设计”。本文将以“总设计师视角”，用生活化的比喻和实例，拆解AI应用架构师在智能虚拟人系统设计中的创新思维——从“让虚拟人
AI人工智能为空间智能领域带来的科技革新 AI云原生与云计算技术学院 AI云原生与云计算人工智能科技 ai
AI人工智能为空间智能领域带来的科技革新关键词：人工智能、空间智能、计算机视觉、SLAM、空间计算、增强现实、自动驾驶摘要：本文将深入探讨人工智能如何革新空间智能领域。我们将从基本概念出发，逐步分析AI在空间感知、理解和交互方面的突破性进展，包括SLAM技术、3D重建、空间计算等核心应用。通过生动的比喻和实际案例，揭示AI如何赋予机器"空间思维"能力，并展望这一技术融合的未来发展趋势。背景介绍目的
基于深度学习的图像分类：使用ShuffleNet实现高效分类 Blossom.118 机器学习与人工智能深度学习分类人工智能机器学习数据挖掘 python 目标检测
前言图像分类是计算机视觉领域中的一个基础任务，其目标是将输入的图像分配到预定义的类别中。近年来，深度学习技术，尤其是卷积神经网络（CNN），在图像分类任务中取得了显著的进展。ShuffleNet是一种轻量级的深度学习架构，专为移动和嵌入式设备设计，能够在保持较高分类精度的同时，显著减少计算量和模型大小。本文将详细介绍如何使用ShuffleNet实现高效的图像分类，从理论基础到代码实现，带你一步步掌
《零基础入门AI：从图像梯度到凸包特征检测（OpenCV图像特征提取）》竹子_23 OpenCV入门 opencv 人工智能计算机视觉
一、图像梯度处理：理解像素变化的本质1.1图像梯度基础图像梯度是计算机视觉中的核心概念，它描述了图像中像素强度的变化情况：梯度方向：像素值变化最剧烈的方向（垂直于边缘）梯度幅度：像素值变化的强度（值越大表示边缘越明显）物理意义：就像地形图中的等高线，梯度大的地方相当于陡坡，梯度小的地方相当于平地1.2垂直边缘提取垂直边缘是图像中物体左右边界形成的线条：特征：水平方向上像素值发生突变应用场景：文档扫
OpenCV基础02_图像预处理白槿_cha 计算机视觉基础 opencv 人工智能计算机视觉笔记
图像预处理在计算机视觉和图像处理领域，图像预处理是一个重要的步骤，它能够提高后续处理（如特征提取、目标检测等）的准确性和效率。OpenCV提供了许多图像预处理的函数和方法，一些常见的图像预处理操作：图像色彩空间转换图像大小调整图像仿射变换图像翻转图像裁剪图像二值化处理图像去噪边缘检测图像平滑处理图像形态学一、图像翻转cv2.flip是OpenCV库中的一个函数，用于翻转图像。翻转可以是水平翻转、垂
电表箱识别漏检率高？陌讯算法实测降 90%
在电力巡检领域，电表箱状态识别一直是计算机视觉技术落地的难点。传统人工巡检模式下，一个台区的200个电表箱需2名巡检员耗时1天完成，且受光线、天气影响，误判率常超过15%。而采用普通开源算法部署的自动识别系统，又面临箱体污渍遮挡、表计型号混杂、边缘计算设备算力有限等多重挑战，实际商用时mAP（平均精度）往往跌破70%，难以满足电力行业的可靠性要求技术解析：从传统方法到陌讯创新架构传统电表箱识别多采
以AI人工智能为核心，发展空间智能 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
以AI人工智能为核心，发展空间智能关键词：人工智能、空间智能、智能系统、机器学习、计算机视觉、物联网、自动化技术摘要：本文围绕"以AI人工智能为核心发展空间智能"这一主题，系统解析空间智能的技术架构与实现路径。通过揭示AI与空间智能的核心关联，深入探讨机器学习、计算机视觉、数字孪生等关键技术如何赋能空间数据的感知、处理与决策。结合智能建筑、智慧城市等实际场景，展示从算法原理到工程落地的完整技术链条
探索未来标注新纪元：AutoLabelImg 多功能自动标注工具徐耘馨
探索未来标注新纪元：AutoLabelImg多功能自动标注工具在计算机视觉领域，高质量的数据标注是模型训练的关键一步，而AutoLabelImg正是这样一个旨在提升效率的开源标注工具。它不仅继承了著名的labelImg的基础特性，还创新性地加入了多种高级功能，为开发者和研究人员提供了一个全新的标注体验。项目简介AutoLabelImg是一款强大的图像和视频标注工具，集成了自动化标注、追踪标注、放大
无人机正摄影像自动识别与矢量提取系统 pk_xz123456 算法 python 无人机算法数据挖掘深度学习网络媒体
无人机正摄影像自动识别与矢量提取系统1.项目概述本项目旨在开发一个基于Python的自动化系统，能够从TIFF格式的无人机正摄影像中识别并提取多种地物要素，包括水边线、道路、桥梁、植被图斑、房屋、趸船和护岸。系统将采用深度学习与计算机视觉技术相结合的方法，实现高精度（95%以上）的自动识别，并将结果以带有相同坐标信息的矢量DWG/DXF格式保存。2.系统架构设计2.1总体架构系统采用模块化设计，主
AI人工智能加持，人脸识别精准度飙升 AI大模型应用工坊人工智能 ai
AI人工智能加持，人脸识别精准度飙升：从模糊到清晰的技术革命关键词人脸识别、深度学习、神经网络、精准度优化、计算机视觉、特征提取、面部识别算法摘要想象一下，在一个拥挤的火车站，系统能在瞬间从数千人中准确识别出需要关注的个体；或者你的手机仅通过一瞥就能认出你，甚至在你戴着口罩时也能做到。这不是科幻电影的场景，而是当下AI驱动的人脸识别技术的真实能力。本文将深入探讨人工智能如何彻底改变人脸识别领域，从
opencv-day2-图像预处理1 谢眠 OpenCV opencv 计算机视觉
图像预处理在计算机视觉和图像处理领域，图像预处理能够提高后续处理（如特征提取、目标检测等）的准确性和效率。常见的图像预处理操作：图像色彩空间转换图像大小调整图像仿射变换图像翻转图像裁剪图像二值化处理图像去噪边缘检测图像平滑处理图像形态学图像翻转cv2.flip是OpenCV库中的一个函数，用于翻转图像。翻转可以是水平翻转、垂直翻转或同时水平和垂直翻转。这个函数接受两个参数：要翻转的图像和一个指定翻
使用PyTorch实现目标检测与跟踪认真写代码i pytorch 目标检测人工智能 Python
目标检测与跟踪是计算机视觉领域中的重要任务，它可以帮助我们在图像或视频中准确地定位和跟踪特定物体。PyTorch是一个流行的深度学习框架，提供了强大的工具和库，可以用于目标检测与跟踪的实现。本文将详细介绍如何使用PyTorch实现目标检测与跟踪，并提供相应的源代码。安装PyTorch和相关依赖首先，我们需要安装PyTorch和其他必要的依赖项。你可以通过以下命令使用pip安装PyTorch：pip
计算机视觉算法实现——汽车漆面缺陷检测
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.领域介绍：工业质检的革命性突破1.1传统检测方法痛点分析汽车漆面作为车身的第一道防护层，其质量直接影响整车耐腐蚀性和美观度。传统检测依赖质检员目视检查（VT检测），存在三大核心问题：效率瓶颈：经验丰富的质检员完成单台整车检测需15-20分钟（数据来源：丰田2021年质检报告）主观偏
工业缺陷检测的计算机视觉方法总结思绪漂移计算机视觉人工智能缺陷检测
工业缺陷检测的计算机视觉方法总结传统方法特征提取方式：颜色：基于HSV/RGB空间分析，如颜色直方图、颜色矩等纹理：采用LBP、Haar、Gabor滤波器等算子提取纹理模式形状：基于Hu矩、Zernike矩等数学描述符刻画几何特性尺寸：通过连通域分析计算物体像素面积、周长等参数典型处理流程：手动设计特征提取算法建立规则分类器（如SVM、决策树）基于阈值分割目标区域深度学习方法核心特点：端到端学习：
基于深度学习的图像分类：使用Inception-v3实现高效分类 Blossom.118 机器学习与人工智能深度学习分类人工智能机器学习数据挖掘计算机视觉 python
前言图像分类是计算机视觉领域中的一个基础任务，其目标是将输入的图像分配到预定义的类别中。近年来，深度学习技术，尤其是卷积神经网络（CNN），在图像分类任务中取得了显著的进展。Inception-v3是一种高效的深度学习架构，通过引入多尺度特征提取和模块化设计，显著提高了模型的性能和效率。本文将详细介绍如何使用Inception-v3实现高效的图像分类，从理论基础到代码实现，带你一步步掌握基于Inc
将Detection 2模型实例分割功能集成到大模型后门攻击实验中的完整指南神经网络15044 算法 python 深度学习人工智能神经网络算法图像处理
将Detection2模型实例分割功能集成到大模型后门攻击实验中的完整指南前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言1.1研究背景与意义在计算机视觉领域，实例分割是一项关键任务，它不仅能识别图像中的物体类别，还能精确地分割出每个实例的像素区域。FacebookAIResearch开发的Detectron2框架提供了高效的
机器学习资源 SimpleUmbrella
以下是根据不同语言类型和应用领域收集的各类工具库，持续更新中。C通用机器学习Recommender-一个产品推荐的C语言库，利用了协同过滤.计算机视觉CCV-C-based/Cached/CoreComputerVisionLibrary,是一个现代化的计算机视觉库。VLFeat-VLFeat是开源的computervisionalgorithms库,有Matlabtoolbox。C++计算机视觉
目标检测：AI人工智能推动金融科技发展 AI应用开发实战派人工智能目标检测金融 ai
目标检测：AI人工智能推动金融科技发展关键词：目标检测、金融科技、人工智能、计算机视觉、深度学习、YOLO、金融风控摘要：本文深入探讨了目标检测技术在金融科技领域的创新应用。我们将从计算机视觉基础原理出发，详细分析目标检测的核心算法和数学模型，并通过实际金融场景案例展示其应用价值。文章不仅包含技术实现细节，还提供了完整的开发环境搭建指南和代码示例，最后展望了该技术在金融科技领域的未来发展趋势和挑战
计算机视觉：少样本学习（Few-Shot Learning）在视觉中的应用 xcLeigh 计算机视觉CV 计算机视觉学习人工智能 FSL AI
计算机视觉：少样本学习（Few-ShotLearning）在视觉中的应用一、前言二、少样本学习基础概念2.1定义与范畴2.2与传统机器学习对比2.3核心挑战三、少样本学习在计算机视觉中的典型应用3.1图像分类3.1.1新类别识别3.1.2医学图像分类3.2目标检测3.2.1新目标检测3.2.2小目标检测3.3图像分割3.3.1医学图像分割3.3.2工业缺陷检测四、少样本学习在计算机视觉中的技术方法
大语言模型原理与工程实践：RLHF 实战框架 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：RLHF实战框架1.背景介绍1.1人工智能的崛起人工智能(AI)技术在过去几年中取得了令人瞩目的进展,尤其是在自然语言处理(NLP)和计算机视觉(CV)等领域。大型语言模型(LLM)的出现,使得人工智能系统能够生成逼真的自然语言输出,从而在多个应用场景中发挥重要作用。1.2大语言模型的挑战然而,训练出高质量的大语言模型并非易事。传统的监督学习方法需要大量高质量的标注数据,
OpenCV图像预处理
图像预处理在计算机视觉和图像处理领域，图像预处理是一个重要的步骤，它能够提高后续处理（如特征提取、目标检测等）的准确性和效率。OpenCV提供了许多图像预处理的函数和方法，以下是一些常见的图像预处理操作：图像色彩空间转换图像大小调整图像仿射变换图像翻转图像裁剪图像二值化处理图像去噪边缘检测图像平滑处理图像形态学图像翻转cv2.flip是OpenCV库中的一个函数，用于翻转图像。翻转可以是水平翻转、
Windows PCL CMakeLists.txt配置示例 Coding的叶子临时专栏 CMakeLists.pcl c++windows cmake
【版权声明】本文为博主原创文章，未经博主允许严禁转载，我们会定期进行侵权检索。参考书籍：《人工智能点云处理及深度学习算法》本文为专栏《Python三维点云实战宝典》系列文章，专栏介绍地址“【python三维深度学习】python三维点云从基础到深度学习_python3d点云从基础到深度学习-CSDN博客”。配套书籍《人工智能点云处理及深度学习算法》提供更加全面和系统的解析。在计算机视觉和机器人领域
Ubuntu PCL CMakeLists.txt配置示例 Coding的叶子临时专栏 ubuntu cmake CMakeLists.pcl c++
【版权声明】本文为博主原创文章，未经博主允许严禁转载，我们会定期进行侵权检索。参考书籍：《人工智能点云处理及深度学习算法》本文为专栏《Python三维点云实战宝典》系列文章，专栏介绍地址“【python三维深度学习】python三维点云从基础到深度学习_python3d点云从基础到深度学习-CSDN博客”。配套书籍《人工智能点云处理及深度学习算法》提供更加全面和系统的解析。在计算机视觉和机器人领域
Swin Transformer原理与代码精讲 bai666ai 深度学习之计算机视觉 transformer swin CV 深度学习图像分类
课程链接：SwinTransformer原理与代码精讲--计算机视觉视频教程-人工智能-CSDN程序员研修院Transformer在许多NLP(自然语言处理)任务中取得了最先进的成果。SwinTransformer是在ViT基础上发展而来，是Transformer应用于CV（计算机视觉）领域又一里程碑式的工作。它可以作为通用的骨干网络，用于图片分类的CV任务，以及下游的CV任务，如目标检测、实例分
【1】计算机视觉方法（更新） annaPresident 计算机视觉计算机视觉人工智能
1计算机是视觉的定义和任务计算机视觉（ComputerVision,CV）是人工智能领域的分支，旨在通过算法让计算机从图像或视频中提取信息、理解内容并做出决策。其核心任务是模拟人类视觉系统，实现场景理解、目标检测、图像分类等功能。2传统CV解决问题的步骤和方法步骤对图片、视频进行预处理，增强对比度，灰度化，变形等特征提取，边缘、角点、纹理等分割，通过阈值进行分割，分别处理形态学处理，通过膨胀、腐蚀
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他