yf743909

opencv+mediapipe 手势识别控制电脑音量(详细注释解析)

前段时间社团布置了一个手势识别控制电脑音量的小任务，今天记录一下学习过程，将大佬作品在我的贫瘠的基础上解释一下~

项目主要由以下4个步骤组成：

1、使用OpenCV读取摄像头视频流

2、识别手掌关键点像素坐标

3、根据拇指和食指指尖的坐标，利用勾股定理计算距离

4、将距离等比例转为音量大小，控制电脑音量

最终的效果是这样的：

库

首先介绍一下应用的几个库

opencv

OpenCV是Intel开源计算机视觉库。OpenCV的全称是：Open Source Computer Vision Library

对于这个，我们应该已经不再陌生了，毕竟已经学习了很久啦

mediapipe

一个新朋友！

MediaPipe是一个用于构建机器学习管道的框架，用于处理视频、音频等时间序列数据。MediaPipe依赖OpenCV来处理视频，FFMPEG来处理音频数据。它还有其他依赖项，如OpenGL/Metal、Tensorflow、Eigen等。在这个例子中，将使用它来进行手势的识别。

python中的一些标准库

time

(1)、time库概述

time库是Python中处理时间的标准库

import time

time.()

(2)、time库包含三类函数

      - 时间获取：time() ctime() gmtime()
      - 时间格式化：strftime() strptime()
      - 程序计时：sleep() perf_counter()

math

内置数学类函数库，math库不支持复数类型，仅支持整数和浮点数运算。
math库一共提供了：

4个数字常数

44个函数，分为4类：
16个数值表示函数
8个幂对数函数
16个三角对数函数
4个高等特殊函数

这两个库都需要使用保留字import使用

numpy

这个库也是经常使用的，它的应用如下：

创建n维数组(矩阵)

对数组进行函数运算，使用函数计算十分快速，节省了大量的时间，且不需要编写循环，十分方便

数值积分、线性代数运算、傅里叶变换

ndarray快速节省空间的多维数组，提供数组化的算术运算和高级的广播功能。1.3 对象

NumPy中的核心对象是ndarray

ndarray可以看成数组，存放 同类元素

NumPy里面所有的函数都是围绕ndarray展开的

实例分部展示

# 导入电脑音量控制模块，实现系统与音频接口的交互, 用于控制电脑音量

from ctypes import cast, POINTER

ctypes

模块ctypes是Python内建的用于调用动态链接库函数的功能模块，一定程度上可以用于Python与其他语言的混合编程。由于编写动态链接库，使用C/C++是最常见的方式，故ctypes最常用于Python与C/C++混合编程之中。

ctypes.cast（obj，type）此函数类似于C中的强制转换运算符。它返回一个新的类型实例，该实例指向与obj相同的内存块。type必须是指针类型，obj必须是可以解释为指针的对象。

POINTER 返回类型对象，用来给 restype 和 argtypes 指定函数的参数和返回值的类型用。

from comtypes import CLSCTX_ALL

comtypes

comtypes是一个轻量级的Python COM包，基于ctypes FFI库。
comtypes允许在纯Python中定义、调用和实现自定义和基于调度的COM接口。
此程序包仅适用于Windows。

from pycaw.pycaw import AudioUtilities, IAudioEndpointVolume

在调节音量方面，上面3行经常一起出现，记下来就好

#导入其他库

# 导入其他辅助库 import time import math # 重要的科学辅助库 import numpy as np

本例中，time用于⏲计时，math用于计算根号。

# 定义一个名为HandControlVolume的类

class HandControlVolume: def __init__(self): # 初始化 medialpipe # 导入MediaPipe库中的绘图工具函数，用于在图像上绘制检测结果 self.mp_drawing = mp.solutions.drawing_utils # 导入MediaPipe库中的绘图样式，用于定义绘制的颜色和线条风格 self.mp_drawing_styles = mp.solutions.drawing_styles # 导入MediaPipe库中的手部检测模型 self.mp_hands = mp.solutions.hands

#主函数

# 主函数 def recognize(self): # 计算刷新率 fpsTime = time.time() # OpenCV读取视频流，获取一个视频流对象 cap = cv2.VideoCapture(1) # 视频分辨率 resize_w = 720 resize_h = 640 # 画面显示初始化参数 rect_height = 0 rect_percent_text = 0

如果你的电脑是自带的摄像头，别忘了把videocapture的参数调整为0 ，我的是外接摄像头，所以参数是1

#调用mediapipe的Hands函数，输入手指关节检测的置信度和上一帧跟踪的置信度，输入最多检测手的数目，进行关节点检测

# 调用mediapipe的Hands函数，输入手指关节检测的置信度和上一帧跟踪的置信度，输入最多检测手的数目，进行关节点检测 with self.mp_hands.Hands(min_detection_confidence=0.7, min_tracking_confidence=0.5, max_num_hands=2) as hands: # 只要摄像头保持打开，则循环运行程序 while cap.isOpened(): success, image = cap.read()#获取一帧当前图像，返回是否获取成功和图像数组（用numpy矩阵存储的照片） image = cv2.resize(image, (resize_w, resize_h))#修改图像大小 if not success:#如果获取图像失败，则进入下一次循环 print("空帧.") continue # 将图片格式设置为只读状态，可以提高图片格式转化的速度 image.flags.writeable = False # 将BGR格式存储的图片转为RGB image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) # 镜像处理 image = cv2.flip(image, 1) # 将图像输入手指检测模型，得到结果 results = hands.process(image) # 重新设置图片为可写状态，并转化会BGR格式 image.flags.writeable = True image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)

#当画面中检测到手掌

# 当画面中检测到手掌，results.multi_hand_landmarks值不为false if results.multi_hand_landmarks: # 遍历每个手掌，注意是手掌，意思是可能存在多只手 for hand_landmarks in results.multi_hand_landmarks: # 用最开始初始化的手掌画图函数及那个手指关节点画在图像上 self.mp_drawing.draw_landmarks( image,#图像 hand_landmarks,#手指信息 self.mp_hands.HAND_CONNECTIONS,# 手指之间的连接关系 self.mp_drawing_styles.get_default_hand_landmarks_style(), #手指样式 self.mp_drawing_styles.get_default_hand_connections_style())#连接样式 # 解析手指，存入各个手指坐标 landmark_list = []#初始化一个列表来存储 for landmark_id, finger_axis in enumerate( hand_landmarks.landmark):#便利某个手的每个关节 landmark_list.append([ landmark_id, finger_axis.x, finger_axis.y, finger_axis.z ])#将手指序号，像素点横、纵、深度坐标打包为一个列表，共同存入列表中

#检测到手指后：

# 列表非空，意为检测到手指 if landmark_list: # 获取大拇指指尖坐标，序号为4 thumb_finger_tip = landmark_list[4] # 向上取整，得到手指坐标的整数 thumb_finger_tip_x = math.ceil(thumb_finger_tip[1] * resize_w)#thumb_finger_tip[1]里存储的x值范围是0-1，乘以分辨率宽，便得到在图像上的位置 thumb_finger_tip_y = math.ceil(thumb_finger_tip[2] * resize_h) #thumb_finger_tip[2]里存储的x值范围是0-1，乘以分辨率高，便得到在图像上的位置 # 获取食指指尖坐标，序号为4，操作同理 index_finger_tip = landmark_list[8] index_finger_tip_x = math.ceil(index_finger_tip[1] * resize_w) index_finger_tip_y = math.ceil(index_finger_tip[2] * resize_h) # 得到食指和拇指的中间点 finger_middle_point = (thumb_finger_tip_x + index_finger_tip_x) // 2, ( thumb_finger_tip_y + index_finger_tip_y) // 2 # print(thumb_finger_tip_x) thumb_finger_point = (thumb_finger_tip_x, thumb_finger_tip_y) index_finger_point = (index_finger_tip_x, index_finger_tip_y) # 用opencv的circle函数画图，将食指、拇指和中间点画出 image = cv2.circle(image, thumb_finger_point, 10, (255, 0, 255), -1) image = cv2.circle(image, index_finger_point, 10, (255, 0, 255), -1) image = cv2.circle(image, finger_middle_point, 10, (255, 0, 255), -1) # 用opencv的line函数将食指和拇指连接在一起 image = cv2.line(image, thumb_finger_point, index_finger_point, (255, 0, 255), 5) # math.hypot为勾股定理计算两点长度的函数，得到食指和拇指的距离 line_len = math.hypot((index_finger_tip_x - thumb_finger_tip_x), (index_finger_tip_y - thumb_finger_tip_y))

#获取电脑最大最小音量

min_volume = self.volume_range[0] max_volume = self.volume_range[1]

  # 将指尖长度映射到音量上

# np.interp为插值函数，简而言之，看line_len的值在[50，300]中所占比例，然后去[min_volume,max_volume]中线性寻找相应的值，作为返回值

vol = np.interp(line_len, [50, 300], [min_volume, max_volume]) # 将指尖长度映射到矩形显示上 rect_height = np.interp(line_len, [50, 300], [0, 200]) # 同理，通过line_len与[50，300]的比较，得到音量百分比 rect_percent_text = np.interp(line_len, [50, 300], [0, 100]) # 用之前得到的vol值设置电脑音量

#将音量显示在屏幕上

# 通过opencv的putText函数，将音量百分比显示到图像上 cv2.putText(image, str(math.ceil(rect_percent_text)) + "%", (10, 350), cv2.FONT_HERSHEY_PLAIN, 3, (255, 0, 0), 3) # 通过opencv的rectangle函数，画出透明矩形框 image = cv2.rectangle(image, (30, 100), (70, 300), (255, 0, 0), 3) # 通过opencv的rectangle函数，填充举行实心比例 image = cv2.rectangle(image, (30, math.ceil(300 - rect_height)), (70, 300), (255, 0, 0), -1)

# 显示刷新率FPS，cTime为程序一个循环截至的时间

# 显示刷新率FPS，cTime为程序一个循环截至的时间 cTime = time.time() fps_text = 1 / (cTime - fpsTime)# 计算频率 fpsTime = cTime# 将下一轮开始的时间置为这一轮循环结束的时间

#音量显示的设置

# 显示帧率 cv2.putText(image, "FPS: " + str(int(fps_text)), (10, 70), cv2.FONT_HERSHEY_PLAIN, 3, (255, 0, 0), 3) # 用opencv的函数显示摄像头捕捉的画面，以及在画面上写的字，画的框 cv2.imshow('MediaPipe Hands', image) # 每次循环等待5毫秒，如果按下Esc或者窗口退出，这跳出循环 if cv2.waitKey(5) & 0xFF == 27 or cv2.getWindowProperty('MediaPipe Hands', cv2.WND_PROP_VISIBLE) < 1: break # 释放对视频流的获取 cap.release()

#主程序

# 主程序，先初始化一个手掌获取实例，然后启动recognize函数即可 control = HandControlVolume() control.recognize()

OK啦！

完整代码如下：

# 导入OpenCV import cv2 # 导入mediapipe，用于手部关键点检测和手势识别 ''' 敲桌子！！！（核心关键库） ''' # 无法使用GPU加速，因为此库不支持该操作 import mediapipe as mp # 导入电脑音量控制模块，实现系统与音频接口的交互 from ctypes import cast, POINTER from comtypes import CLSCTX_ALL # 用于控制电脑音量 from pycaw.pycaw import AudioUtilities, IAudioEndpointVolume # 导入其他辅助库 import time import math # 重要的科学辅助库 import numpy as np class HandControlVolume: def __init__(self): # 初始化 medialpipe # 导入MediaPipe库中的绘图工具函数，用于在图像上绘制检测结果 self.mp_drawing = mp.solutions.drawing_utils # 导入MediaPipe库中的绘图样式，用于定义绘制的颜色和线条风格 self.mp_drawing_styles = mp.solutions.drawing_styles # 导入MediaPipe库中的手部检测模型 self.mp_hands = mp.solutions.hands # 获取电脑音量范围 # 获取系统的音频输出设备（扬声器） devices = AudioUtilities.GetSpeakers() # 激活音频输出设备上的音量控制接口 interface = devices.Activate(IAudioEndpointVolume._iid_, CLSCTX_ALL, None) # 将激活的音量控制接口转换为指针类型，并赋给实例变量volume，以方便后续使用 self.volume = cast(interface, POINTER(IAudioEndpointVolume)) # 将音量控制对象的静音状态设置为关闭（0表示关闭，1表示打开） self.volume.SetMute(0, None) # 通过音量控制接口的GetVolumeRange()方法获取音量控制对象的音量范围（最小值和最大值） self.volume_range = self.volume.GetVolumeRange() # 主函数 def recognize(self): # 计算刷新率 fpsTime = time.time() # OpenCV读取视频流，获取一个视频流对象 cap = cv2.VideoCapture(1) # 视频分辨率 resize_w = 720 resize_h = 640 # 画面显示初始化参数 rect_height = 0 rect_percent_text = 0 # 使用MediaPipe库中的Hands模型进行手部检测和跟踪。 with self.mp_hands.Hands(min_detection_confidence=0.7, min_tracking_confidence=0.5, max_num_hands=2) as hands: # 循环读取视频帧，直到视频流结束 while cap.isOpened(): success, image = cap.read() # 将图像调整为指定的分辨率 image = cv2.resize(image, (resize_w, resize_h)) # 防止摄像头掉线出现报错 if not success: print("空帧.") continue # 提高性能 image.flags.writeable = False # BGR转为RGB image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) # 镜像 image = cv2.flip(image, 1) # mediapipe模型处理 results = hands.process(image) # 将图像的可写标志image.flags.writeable设置为True，以重新启用对图像的写入操作 image.flags.writeable = True # RGB转为BGR image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR) # 判断是否有手掌 if results.multi_hand_landmarks: # 遍历每个手掌 for hand_landmarks in results.multi_hand_landmarks: # 在画面标注手指 self.mp_drawing.draw_landmarks( image, hand_landmarks, # 指定要绘制的手部关键点之间的连接线 self.mp_hands.HAND_CONNECTIONS, # 获取默认的手部关键点绘制样式 self.mp_drawing_styles.get_default_hand_landmarks_style(), # 获取默认的手部连接线绘制样式 self.mp_drawing_styles.get_default_hand_connections_style()) # 解析手指，存入各个手指坐标 landmark_list = [] # 遍历每个手部关键点的索引和对应的坐标值 for landmark_id, finger_axis in enumerate(hand_landmarks.landmark): landmark_list.append([landmark_id, finger_axis.x, finger_axis.y, finger_axis.z]) if landmark_list: # 获取大拇指指尖坐标 thumb_finger_tip = landmark_list[4] thumb_finger_tip_x = math.ceil(thumb_finger_tip[1] * resize_w) thumb_finger_tip_y = math.ceil(thumb_finger_tip[2] * resize_h) # 获取食指指尖坐标 index_finger_tip = landmark_list[8] index_finger_tip_x = math.ceil(index_finger_tip[1] * resize_w) index_finger_tip_y = math.ceil(index_finger_tip[2] * resize_h) # 中间点 finger_middle_point = (thumb_finger_tip_x + index_finger_tip_x) // 2, (thumb_finger_tip_y + index_finger_tip_y) // 2 thumb_finger_point = (thumb_finger_tip_x, thumb_finger_tip_y) index_finger_point = (index_finger_tip_x, index_finger_tip_y) # 画指尖2点 image = cv2.circle(image, thumb_finger_point, 10, (255, 0, 255), -1) image = cv2.circle(image, index_finger_point, 10, (255, 0, 255), -1) image = cv2.circle(image, finger_middle_point, 10, (255, 0, 255), -1) # 画2点连线 image = cv2.line(image, thumb_finger_point, index_finger_point, (255, 0, 255), 5) # 勾股定理计算长度 line_len = math.hypot((index_finger_tip_x - thumb_finger_tip_x), (index_finger_tip_y - thumb_finger_tip_y)) # 获取电脑最大最小音量 min_volume = self.volume_range[0] max_volume = self.volume_range[1] # 将指尖长度映射到音量上 vol = np.interp(line_len, [50, 300], [min_volume, max_volume]) # 将指尖长度映射到矩形显示上 rect_height = np.interp(line_len, [50, 300], [0, 200]) rect_percent_text = np.interp(line_len, [50, 300], [0, 100]) # 设置电脑音量 self.volume.SetMasterVolumeLevel(vol, None) # 显示矩形 cv2.putText(image, str(math.ceil(rect_percent_text)) + "%", (10, 350), cv2.FONT_HERSHEY_PLAIN, 3, (255, 0, 0), 3) image = cv2.rectangle(image, (30, 100), (70, 300), (255, 0, 0), 3) image = cv2.rectangle(image, (30, math.ceil(300 - rect_height)), (70, 300), (255, 0, 0), -1) # 显示刷新率FPS cTime = time.time() fps_text = 1 / (cTime - fpsTime) fpsTime = cTime cv2.putText(image, "FPS: " + str(int(fps_text)), (10, 70), cv2.FONT_HERSHEY_PLAIN, 3, (255, 0, 0), 3) # 显示画面 cv2.imshow('MediaPipe Hands', image) if cv2.waitKey(5) & 0xFF == 27 or cv2.getWindowProperty('MediaPipe Hands', cv2.WND_PROP_VISIBLE) < 1: break cap.release() # 开始程序 control = HandControlVolume() control.recognize()

大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
标定系列——基于OpenCV实现普通相机、鱼眼相机不同标定板下的标定（五） JANGHIGH 标定 opencv
标定系列——基于OpenCV实现相机标定（五）说明代码解析VID5.xmlin_VID5.xmlcamera_calibration.cpp说明该程序可以实现多种标定板的相机标定工作代码解析VID5.xmlimages/CameraCalibration/VID5/xx1.jpgimages/CameraCalibration/VID5/xx2.jpgimages/CameraCalibratio
OpenCV 如何使用 XML 和 YAML 文件的文件输入和输出愚梦者深度学习人工智能计算机视觉 c++opencv
返回：OpenCV系列文章目录（持续更新中......）上一篇：如何利用OpenCV4.9离散傅里叶变换下一篇:目标本文内容主要介绍：如何使用YAML或XML文件打印和读取文件和OpenCV的文本条目？如何对OpenCV数据结构做同样的事情？如何为您的数据结构执行此操作？使用OpenCV数据结构，例如cv::FileStorage,cv::FileNodeorcv::FileNodeIterato
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
OpenCV基础demo 苍天饶过谁？ OpenCV学习 opencv 人工智能计算机视觉 C++
一、读取图像//图片路径QStringappPath=QCoreApplication::applicationDirPath();QStringimagePath=appPath+"/sun.png";//读取图像cv::Matimg=cv::imread(imagePath.toStdString());//IMREAD_GRAYSCALE灰度图IMREAD_UNCHANGED具有透明通道if
OpenCV图像翻转和旋转苍天饶过谁？ OpenCV学习 opencv 人工智能计算机视觉 C++
QStringappPath=QCoreApplication::applicationDirPath();imagePath=appPath+"/A.jpg";img=cv::imread(imagePath.toStdString());if(img.empty())return;Matdst;flip(img,dst,0);//上下翻转imshow("flip0",dst);flip(img
OpenCV鼠标操作（画红色方框截取图像）苍天饶过谁？ OpenCV学习 opencv 计算机外设人工智能 C++
Pointsp(-1,-1);Pointep(-1,-1);Mattemp;staticvoidon_draw(intevent,intx,inty,intflags,void*user_data){Matimage=*((Mat*)user_data);if(event==EVENT_LBUTTONDOWN){sp.x=x;sp.y=y;}elseif(event==EVENT_LBUTTONU
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
ChatGPT：AI合作伙伴助你成为论文写作高手 2401_83550420 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达摘要：本文将介绍ChatGPT3.5Turbo（以下简称ChatGPT），一款强大的AI合作伙伴，能够助你成为一名论文写作高手。我们将深入探讨ChatGPT的特点、优势，并提供多个示例，展示ChatGPT在论文写作中的应用。无论是开展研究、撰写论文、还是与ChatGPT进行互动交流，都能够帮助你提升写作效率和质量。引言：随着人工智能的发展，聊天型语言模型在各个领域都
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
opencv “未声明的标识符：SurfFeatureDetector”问题解决办法 adsdriver Opencv学习点滴 opencv 特征点检测未声明的标识符 SurfFeatur Detector
在VS中使用opencv2.4.X版本的时候，如果使用SurfFeatureDetector（或者SiftFeatureDetector）做特征点检测的时候，按照官方文档上的示例代码include头文件为：opencv2/features2d/features2d.hpp，则会出现如下报错：errorC2065:“SurfFeatureDetector”:未声明的标识符。1、实际上2.4.X版本的
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
OpenCV图像像素逻辑操作苍天饶过谁？ OpenCV学习 opencv 人工智能计算机视觉 c++
cv::Matm1=cv::Mat::zeros(Size(256,256),CV_8UC3);cv::Matm2=cv::Mat::zeros(Size(256,256),CV_8UC3);rectangle(m1,Rect(100,100,80,80),Scalar(255,255,0),-1,LINE_8,0);rectangle(m2,Rect(150,150,80,80),Scalar(
opencv 十八 python下实现0缓存掉线重连的rtsp直播流播放器摸鱼的机器猫 opencv实战 opencv python 缓存
使用opencv打开rtsp视频流时，会因为网络问题导致VideoCapture掉线；也会因为图像的后处理阶段耗时过长导致opencv缓冲区数据堆积，从而使程序无法及时处理最新的数据。为此对cv2.VideoCapture进行封装，实现0缓存掉线重连的rtsp直播流播放器，让程序能一直处理最新的数据。代码实现fromcollectionsimportdequeimportthreadingimpo
ChatGPT：智能论文写作指南，让您成为写作高手 AI臻蚌 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达写作是学术研究中不可或缺的一环，然而，对于许多人来说，写作往往是一项艰巨而费时的任务。但是，现在有了ChatGPT，您将能够以前所未有的速度和准确性编写高质量的论文。本文将向您介绍如何利用ChatGPT的强大功能成为写作高手，并为您提供一些示例，展示其在不同领域的应用。1.简介ChatGPT是一种基于人工智能的语言模型，它可以理解并生成人类语言。通过训练大量的语料库
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
OpenCV多边形填充与绘制苍天饶过谁？ OpenCV学习 opencv 人工智能计算机视觉 C++
Matbg=Mat::zeros(Size(512,512),CV_8UC3);Pointp1(100,100);Pointp2(350,100);Pointp3(450,280);Pointp4(320,450);Pointp5(80,400);std::vectorpts;pts.push_back(p1);pts.push_back(p2);pts.push_back(p3);pts.pus
OpenCV随机数与随机颜色绘制苍天饶过谁？ OpenCV学习 opencv 人工智能计算机视觉 C++
Matbg=Mat::zeros(Size(512,512),CV_8UC3);intw=bg.cols;inth=bg.rows;RNGrng(12345);while(true){intc=cv::waitKey(10);if(c==27){break;}intx1=rng.uniform(0,w);inty1=rng.uniform(0,h);intx2=rng.uniform(0,w);i
数字逻辑不可能涌现出智能 dog250 人工智能
先看一系列竖式乘法的步骤：相乘的两个数数位越大，步骤越多。如果不纠结数制，二进制运算也是这回事，把单个步骤用一个晶体管表达(其实一个步骤不止一个晶体管)，数位越大，所需的晶体管越多。先说结论，所有基于n进制的逻辑运算都不可扩展。硅基时序电路可如此巧妙完成精确计算，开启了数字化时代，人们试图将AI构建在这二进制世界。但若二进制运算不可扩展，基于数字逻辑的人工智能就不可能。前面提到过，二进制运算本质上
让数据说话：人工智能与六西格玛的完美结合张驰课堂人工智能六西格玛
当人工智能与六西格玛结合，企业可以充分利用人工智能技术的数据处理、预测分析和智能决策支持能力，实现数据驱动的决策、质量控制和流程优化，从而提高企业的效率和竞争力。下面张驰咨询给大家具体的介绍：1、数据驱动决策六西格玛侧重于数据分析和决策制定，而人工智能可以提供更强大的数据处理和分析能力。通过人工智能技术，可以自动收集和整理大量的数据，并进行有效的数据挖掘和模式识别。这些数据分析结果可以为六西格玛项
opencv | 计算轮廓的质心 DdddJMs__135 分享 opencv 人工智能计算机视觉
#include#include#include#includeusingnamespacecv;usingnamespacestd;Matsrc;Matsrc_gray;intthresh=30;intmax_thresh=255;intmain(){src=imread("2.jpg",CV_LOAD_IMAGE_COLOR);cvtColor(src,src_gray,CV_BGR2GRAY
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数） MarkHD 深度学习神经网络计算机视觉
神经网络，特别是深度学习，在计算机视觉等领域有着广泛的应用。以下是关于你提到的几个关键概念的详细解释：神经网络：神经网络是一种模拟人脑神经元结构的计算模型，用于处理复杂的数据和模式识别任务。它由多个神经元（或称为节点）组成，这些神经元通过权重和偏置进行连接，并可以学习调整这些参数以优化性能。深度学习：深度学习是神经网络的一个子领域，主要关注于构建和训练深度神经网络（即具有多个隐藏层的神经网络）。通
AI原生安全亚信安全首个“人工智能安全实用手册”开放阅览亚信安全官方账号安全网络 web安全人工智能大数据
不断涌现的AI技术新应用和大模型技术革新，让我们感叹从没有像今天这样，离人工智能的未来如此之近。追逐AI原生？企业组织基于并利用大模型技术探索和开发AI应用的无限可能，迎接生产与业务模式的全面的革新。我们更应关心AI安全原生。实施人工智能是一项复杂又长远的任务，任何希望利用大模型的组织在设计之初，都必须将安全打入地基，安全一定是AI技术发展的核心要素。针对人工智能和大模型面临的威胁与攻击模式，亚信
开发chrome扩展（禁止指定域名使用插件）徐同保 chrome 前端
mainfest.json:{"manifest_version":3,"name":"ChatGPT学习","version":"0.0.2","description":"ChatGPT,GPT-4,Claude3,Midjourney,StableDiffusion,AI,人工智能,AI","icons":{"16":"./images/logo.png","48":"./images/lo
什么是特征检测和描述，OpenCV中常见的特征检测算法有哪些？ -Max-静- #opencv学习 opencv 算法人工智能
特征检测和描述是计算机视觉中的基本概念，它们在图像识别、对象跟踪、图像拼接等多种任务中发挥着至关重要的作用。特征检测是指识别图像中重要的特定点、区域或结构，这些特征通常具有独特性、可重复性以及对光照变化、旋转和比例变换等变化的鲁棒性。这些特征点可以用作进一步分析的参考。特征描述是基于一定的几何或者颜色信息生成特征点的特征描述符，这种描述应满足欧式空间的仿射不变性和噪声鲁棒性，并且不同特征点的特征描
Android 实现照片抠出人像。 No Promises﹉ android
谢谢阅览、关注！！一、各平台的实现方式：1.Android实现方式：使用图像处理库（如OpenCV）：集成OpenCV库，利用其图像处理功能进行边缘检测和图像分割；使用机器学习模型（如TensorFlowLite）：集成TensorFlowLite和预训练的人像分割模型；使用第三方API服务：利用如百度AI、腾讯AI等提供的在线API进行图像处理。步骤：集成必要的库或API、加载和处理图像、应用抠
ai智能语音机器人的出现未来电销行业会如何发展？ VO_794632978 WX-794632978 语音机器人人工智能机器人交互语音识别大数据
人工智能和移动互联网技术的发展，对于很多行业都产生了颠覆性的影响。而对于电销这一重复度较高的行业来说，也是产生了巨大的推动作用。对于传统电销人来说，电销机器人可以帮助你提高销售效率，提高影响客户的能力和转化率，将你过去繁琐简单无效的需要个人做的工作，都交给机器，让你的时间和精力，放在重要的客户和有创造性的事情上。我们一起来看看都有哪些发展。自动化程度提高：AI机器人能够不间断地工作，自动拨打电话、
生成式AI竞赛：开源还是闭源，谁将主宰未来？新加坡内哥谈技术人工智能
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/对于一些行业观察家来说，这场战斗似乎还没开始就已结束。当ChatGPT成为有史以来增长最
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

opencv+mediapipe 手势识别控制电脑音量(详细注释解析)

库

opencv

mediapipe

python中的一些标准库

time

math

numpy

实例分部展示

# 导入电脑音量控制模块，实现系统与音频接口的交互, 用于控制电脑音量

ctypes

comtypes

#导入其他库

# 定义一个名为HandControlVolume的类

#主函数

#调用mediapipe的Hands函数，输入手指关节检测的置信度和上一帧跟踪的置信度，输入最多检测手的数目，进行关节点检测

#当画面中检测到手掌

#检测到手指后：

#获取电脑最大最小音量

# 将指尖长度映射到音量上

#将音量显示在屏幕上

# 显示刷新率FPS，cTime为程序一个循环截至的时间

#音量显示的设置

#主程序

完整代码如下：

你可能感兴趣的:(opencv,人工智能,计算机视觉)