phial03

音视频/流媒体协议和编码汇总

一、流媒体协议

1. RTMP/RTMPT/RTMPS/RTMPE 等多变种

是应用层协议，使用TCP作为底层传输协议，并提供了低延迟、高带宽利用率和实时性的特点。
(1)RTMP协议是Adobe的私有协议,未完全公开
(2)一般传输的是 flv，f4v 格式流

2. RTP/RTCP/SRTP

都作用于OSI模型中的传输层。
RTCP是RTP的补充协议，用于提供对RTP会话的控制和监控。RTCP负责传输会话中的控制信息，包括发送者和接收者的统计信息、网络延迟、会话质量反馈等
SRTP是在RTP（Real-time Transport Protocol）的基础上添加了加密和认证机制，用于保护音频和视频数据的机密性和完整性。

3. RTSP/RTSPS

是一种应用层协议，本身并不传输媒体数据，但它可以与其他协议结合使用，如RTP来实现实时流媒体的传输。
(1)RTSP可以使用TCP作为底层传输协议，也可以使用UDP
(2)RTSPS是RTSP的安全版本，使用了TLS/SSL协议来加密和保护数据传输，以防止数据在传输过程中被窃听和篡改。RTSPS通常使用TCP作为底层传输协议。
(3)一般传输的是 ts、mp4 格式的流

4. HTTP-FLV

是一个应用层协议，用于传输Flash Video (FLV) 格式的音视频数据

5. HTTP-TS

基于MPEG-2 TS（Transport Stream）标准。它将视频、音频和其他媒体数据打包成小的TS分片，并通过HTTP协议进行传输。每个TS分片通常包含几秒钟的媒体数据。这种分片的方式使得流媒体可以通过HTTP协议进行可靠的传输，并且具有较低的延迟。在接收端，客户端会按顺序下载和播放这些TS分片，从而实现连续的流媒体播放。

6. HTTP-FMP4

基于Fragmented MP4（FMP4）标准。与HTTP-TS不同，HTTP-FMP4将视频、音频和其他媒体数据打包成小的MP4片段（Fragment），而不是MPEG-2 TS分片。这些MP4片段通常包含几秒钟的媒体数据。与HTTP-TS相比，HTTP-FMP4在流媒体传输中更为常见，因为它具有更广泛的兼容性和较低的延迟。它也更适合在移动设备和浏览器中播放。

7. MP4

MP4（MPEG-4 Part 14）是一种常见的媒体容器格式，用于存储音频、视频和其他媒体数据。它可以包含多种编码的音频和视频流，以及字幕、章节标记和元数据等信息。MP4文件通常用于存储和传输点播内容。
MP4和HTTP-FMP4之间的主要区别在于：

格式：MP4是媒体容器格式，用于存储和传输媒体数据。HTTP-FMP4是基于FMP4标准的流媒体格式，用于通过HTTP协议传输切分后的MP4片段。
传输方式：MP4文件可以通过各种传输方式进行传输，包括HTTP、FTP等。HTTP-FMP4则是特定于HTTP协议的流媒体传输格式，利用HTTP分片传输技术将切分后的MP4片段逐个传输和播放。
应用场景：MP4适用于存储和传输点播内容，用户可以随时选择和播放。HTTP-FMP4主要用于流媒体传输，支持实时流媒体和自适应流媒体传输，适用于直播、实时通信和点播等应用。

8. HLS

是一个应用层协议，将媒体文件切片成小的TS（Transport Stream）文件，通过HTTP协议进行分段传输

9. DASH

是一个应用层协议，是一种广义术语，描述基于HTTP的动态自适应流媒体传输方法，由MPEG提供支持。它将媒体文件切片成小的MP4文件，通过HTTP协议进行分段传输，并根据网络条件和设备能力动态选择最适合的片段进行播放

10. MPEG-DASH

MPEG-DASH是由国际标准化组织ISO/IEC MPEG（Moving Picture Experts Group）制定的标准，即ISO/IEC 23009-1。MPEG-DASH建立在DASH的概念和原则之上，是一个具体的标准，提供了标准化的规范和指南，旨在实现跨不同厂商和平台的互操作性。提供了一些特性（如自适应比特率调整、多音轨和字幕支持等）

11. WebSocket-FLV

使用WebSocket协议传输FLV（Flash Video）格式的流媒体协议

12. WebSocket-TS

使用WebSocket协议传输MPEG-2 TS（Transport Stream）格式的流媒体

13. WebSocket-FMP4

使用WebSocket协议传输Fragmented MP4（fMP4）格式的流媒体

14. SRT

SRT是一个在传输层提供可靠和安全数据传输的协议。它使用UDP作为底层传输协议，并在其上添加了自定义的机制来实现可靠性和安全性。是一个传输层协议。
SRT全称Secure Reliable Transport，是Haivision推出的一个广播传输协议，主要是为了替代RTMP，实际上OBS、vMix、FFmpeg等直播推流编码器都已经支持了SRT。SRT使用的封装是TS封装，因此对于新的Codec天然就支持。而SRT基于UDP协议，因此对于延迟和弱网传输，也比RTMP要好不少。一般RTMP延迟在1到3秒以上，而SRT的延迟在300到500毫秒，而且在弱网下表现也很稳定。在广播电视l领域，由于长距离跨国跨地区传输，或者户外广播时，网络不稳定，因此SRT比RTMP的优势会更明显。

15. SCTP

是一个传输层协议，它与传输控制协议（TCP）和用户数据报协议（UDP）类似，是一种作为一个独立的传输层协议而存在。
主要特点：

可靠性：SCTP提供了可靠的传输机制，通过使用序列号、确认机制和重传机制来确保数据的可靠传输。它还能够检测和恢复网络中的丢失、重复、乱序和拥塞等问题。
多流传输：SCTP支持将数据划分为多个独立的逻辑流进行传输。每个流都有自己的序列号和确认机制，可以独立地传输和重传数据。这种多流传输机制使得SCTP适用于同时传输多个应用程序数据流的场景，提供更好的性能和效率。
心跳机制：SCTP通过发送心跳包来检测对等端的可用性。心跳机制可以用于检测连接中断、故障节点和网络拥塞等情况，并触发相应的处理机制。
有序交付：SCTP可以保证数据按照发送的顺序交付给应用程序，即使在网络中发生乱序的情况下也能够进行重新排序。
拥塞控制：SCTP具有自适应的拥塞控制算法，可以根据网络拥塞程度动态调整发送速率，以避免网络拥塞和数据丢失。

16. RIST

RIST是一个在传输层使用UDP协议，并在应用层提供可靠性和流控制功能的流传输协议。它并不是一个纯粹的应用层协议，而是在传输层和应用层之间操作的协议。
RIST的设计目标是解决流媒体传输中的可靠性和性能问题，使得传输更加稳定和高效。
RIST的主要特点和功能包括：

可靠性：RIST使用前向纠错（Forward Error Correction）和重传机制来确保数据的可靠传输。前向纠错技术允许接收端在接收到部分丢失或损坏的数据时进行恢复，而重传机制可在发生数据丢失时重新发送数据。
安全性：RIST支持加密和身份验证机制，以保护传输的数据的机密性和完整性。它可以使用TLS（Transport Layer Security）协议对传输进行加密，并使用数字证书对通信双方进行身份验证。
低延迟：RIST通过优化传输机制和减少协议开销，以实现较低的传输延迟。这对于实时应用程序（如直播和远程协作）至关重要，可以提供更好的用户体验。
带宽利用：RIST使用动态带宽控制和拥塞控制机制，以适应网络条件和变化的带宽。它可根据当前网络状况自适应地调整传输速率，以充分利用可用的带宽并避免网络拥塞。

17. SIP（SIP-T ）

SIP 是应用层协议，SIP-T是SIP的一个变体，专门设计用于传统电话网络（Public Switched Telephone Network，PSTN）与IP网络之间的互联。它是一种扩展的SIP协议，支持传统电话网络中的信令和媒体传输。

18. SDP

SDP是一个应用层协议，通常与其他应用层协议（如SIP、WebRTC等）一起使用，以实现多媒体通信的功能。

19. WebRTC

WebRTC（Web Real-Time Communication）不是一个单独的协议，而是一个包含多个协议和技术的集合，用于在Web浏览器之间实现实时通信。因此，WebRTC并不属于单一的协议层，而是跨越了多个协议层。
WebRTC涵盖了应用层、传输层和网络层等多个协议层的功能和特性。（1）在应用层，WebRTC提供了JavaScript API，使开发者能够通过Web浏览器直接访问音频、视频和数据流，使开发者能够从摄像头、麦克风等设备中捕获音视频流，并对其进行处理和处理。（2）在传输层，WebRTC使用实时传输协议（Real-Time Transport Protocol，RTP）和用户数据报协议（User Datagram Protocol，UDP）等协议，用于实时传输音视频和数据。支持点对点（Peer-to-Peer）和点对多（Peer-to-Multi-Peer）的通信模式。（3）在网络层，WebRTC通过使用ICE（Interactive Connectivity Establishment）和STUN（Session Traversal Utilities for NAT）等技术，解决了在NAT和防火墙后面进行通信的问题。
WebRTC使用信令协议来协商和建立通信会话。常用的信令协议包括基于SIP（Session Initiation Protocol）的协议和WebSocket等。通过信令，浏览器能够交换SDP（Session Description Protocol）消息，以协商会话参数和建立连接。

20. MGCP

一种用于控制媒体网关的协议，负责协调和控制VoIP网络中的语音和多媒体流的传输。它使用客户端/服务器模型，将媒体网关作为执行者，由中央控制器发送MGCP命令来控制和管理媒体网关的行为。

21. H.323

H.323是一套用于在IP网络上进行语音、视频和数据实时通信的标准和协议套件。它提供了终端、网关、MCU等组件，以及呼叫控制信令和RTP等协议，实现了多媒体通信的互操作性和实时性

22. QUIC

应用层协议，基于 UDP传输层协议。
QUIC协议的关键特点和功能：

快速连接建立：QUIC使用UDP协议以及自定义的QUIC协议栈，通过减少握手往返次数和使用连接迁移技术，大大减少了连接建立的延迟。
多路复用：QUIC支持在单个连接上同时传输多个数据流，这些数据流可以并行传输，并且不会相互阻塞。这种多路复用的特性有助于提高网络利用率和传输效率。
低延迟：QUIC通过使用更低的连接建立延迟、减少拥塞控制延迟和优化数据包传输路径等方式，努力降低网络延迟，提供更快的数据传输速度。
安全性：QUIC内置了加密机制，使用TLS（Transport Layer Security）协议来保护数据的机密性和完整性。它还提供了快速的握手过程和零RTT（Round-Trip Time）恢复，以提供更快的安全连接建立和恢复速度。
连接迁移：QUIC具有连接迁移功能，可以在客户端和服务器之间切换网络连接，而无需重新建立全新的连接。这在移动设备从Wi-Fi切换到移动网络或网络切换的情况下特别有用。
拥塞控制：QUIC使用自己的拥塞控制算法，以适应不同网络条件下的拥塞情况，并通过动态调整数据包发送速率来优化网络性能。

23. GB28181

GB28181是中国国家标准局发布的《基于IP的视频监控联网系统》标准，也被称为《视频监控联网系统信息传输、交互和控制协议》。它是一种用于视频监控系统中设备间通信和互联互通的协议和标准。
GB28181采用基于IP的架构，使用标准的网络协议和技术，如HTTP、RTSP、RTP等，实现视频设备的联网和互操作。该标准规范了视频设备之间的信令交互、媒体传输和设备控制等方面的规范，以确保视频监控系统的互联互通和协同工作。
具体来说，GB28181标准包括以下主要内容：

设备注册和发现：定义了设备注册、注销和发现的过程和机制，使监控中心能够自动发现和管理网络中的视频设备。
媒体传输：规定了基于IP的视频和音频数据的传输方式，使用实时流媒体协议（如RTP、RTSP）进行传输。
控制和事件：定义了设备之间的控制命令和事件通知机制，包括设备状态查询、云台控制、告警事件等。
安全认证和加密：提供了安全认证机制和加密传输的支持，以保障视频监控系统的安全性和数据保密性。
系统架构和接口：规范了视频监控系统的整体架构、组件和接口，以确保不同厂商的设备能够相互兼容和互操作。
通过遵循GB28181标准，不同厂商的视频设备可以实现互联互通，监控中心能够集中管理和控制各个设备，实现统一的视频监控系统。该标准的实施促进了视频监控系统的互联互通和集成，提高了系统的可扩展性、灵活性和互操作性。

RIST 和 SCTP 设计和功能区别：
RIST（Reliable Internet Stream Transport）和SCTP（Stream Control Transmission Protocol）是两种不同的协议，具有不同的设计目标和应用场景。

目标和应用场景：RIST是用于在互联网上传输流媒体的可靠传输协议，旨在解决流媒体传输中的可靠性、安全性和带宽利用等问题。它适用于视频直播、远程制片、远程采访和远程监控等应用。而SCTP是一种传输层协议，旨在提供可靠的数据传输和多流并发传输。它适用于需要可靠传输和多个逻辑流的应用场景，如VoIP、视频传输和实时游戏等。

可靠性机制：RIST使用前向纠错和重传机制来确保数据的可靠传输。前向纠错技术允许接收端在接收到部分丢失或损坏的数据时进行恢复，而重传机制可在发生数据丢失时重新发送数据。SCTP也提供可靠的传输机制，通过序列号、确认机制和重传机制来确保数据的可靠交付。它还支持有序交付和拥塞控制等功能。

多流传输：RIST支持将数据划分为多个独立的逻辑流进行传输，每个流都有自己的序列号和确认机制。这种多流传输机制使得RIST适用于同时传输多个应用程序数据流的场景。而SCTP本身即支持多流传输，可以在一个SCTP连接上并行传输多个逻辑流，每个流都有自己的序列号和确认机制。

安全性：RIST支持加密和身份验证机制，以保护传输的数据的机密性和完整性。它可以使用TLS协议对传输进行加密，并使用数字证书对通信双方进行身份验证。而SCTP本身并没有内建的加密和身份验证机制，但可以与其他安全协议（如IPsec）结合使用，以提供安全的传输。
总的来说，RIST是一个用于流媒体传输的可靠传输协议，着重解决流媒体传输中的可靠性和性能问题。而SCTP是一种传输层协议，提供可靠的数据传输和多流并发传输。它们在目标、应用场景和功能上有所差异，但都可以用于特定的流媒体传输需求。

二、协议分类和封装

1. 从交互方式看

1.1 直播（LIVE)
HLS, RTMP, http+MP4, http+flv, RTP+RTSP
1.2 点播（VOD)
http+MP4, http+flv, HLS, DASH

2. 从业务场景看

2.1 直播
RTMP, HLS, http+flv
2.2 音视频通话：
webrtc(RTP), SIP＋RTP
2.3 视频点播：
http+MP4, http+flv, hls
2.4 IPTV：
RTSP(信令)＋RTP（媒体）
2.5 会议电视：
RTP(媒体)＋SIP(信令),H323(信令)+RTP(媒体)
2.6 视频监控：
国标SIP(信令)+RTP(媒体)，RTSP(媒体)+RTP(媒体)
2.7 VOIP
SIP(信令)+RTP(媒体)

3. 从传输层方式：

3.1 TCP
基于http 类传输协议和rtmp协议底层是tcp传输；
RTSP通常做信令，用TCP来承载
3.2 UDP
RTP协议和RTCP协议是基于UDP承载的
3.3 SCTP

注：关于TCP和UDP承载的区别
1）TCP 传输的特点：面向连接，保序，可靠；
TCP的协议栈完成了拥塞控制，流量控制，乱序重排，丢包重传等工作。保证数据是有序可靠的。适合对数据完整性要求高的场景：如文件下载，网页浏览，信令传输。
2）UDP 传输特点：面向无连接，不保序，不可靠连接
UDP协议不是面向连接的，只是简单向对方发送数据，哪怕对方不存在。正因为协议简单，所以传输效率高，实时高，延迟低。适合对数据完整性要求不高，但实时性高的场景。如音视频传输，游戏等。
3)关于组播与广播，单播
TCP是一个面向连接的协议，TCP一定是点对点的，一定是两个主机来建立连接的，TCP肯定是单播。只有UDP才会使用广播和组播。有时一个主机要向网上的所有其它主机发送帧，这就是广播，广播分为二层广播（目的MAC全F）和三层广播（IP地址的主机位全1），二层广播是不能跨路由器的，三层广播是可以跨路由器路由的。多播（组播）属于单播和广播之间，帧仅传送给属于多播组的多个主机。在广播电视领域为了减少服务器压力，通常使用组播跟用户推流。如IPTV，通常机顶盒通过光猫加入某个组播地址，接收某个CDN的组播流。

三、流媒体编码

1. 视频编码

1.1 H.264/AVC
一种广泛使用的视频编码标准，具有高压缩比和良好的视频质量。
1.2 H.265/HEVC
一种高效的视频编码标准，提供更好的压缩性能和视频质量。
1.3 VP9
由Google开发的开源视频编码格式，具有高压缩效率和良好的视频质量。
1.4 AV1
由Alliance for Open Media开发的开源视频编码格式，旨在提供高效的视频压缩和更好的图像质量。
1.5 MPEG-2
一种常见的视频压缩标准，广泛应用于广播、DVD和数字电视等领域。
1.6 MPEG-4：
一种多媒体压缩标准，支持视频、音频和其他媒体数据的压缩和传输。
1.7 VP8：
由On2 Technologies开发的视频编码格式，是VP9的前身，现在仍然被一些应用使用。
1.8 VC-1
VC-1是软件巨头微软力推的一种视频编码的格式，弱于H.264，也弱于MPEG-4

2. 视频格式

2.1 MP4

2.2 AVI

2.3 FLV

2.4 F4V

2.5 MOV

2.6 MPEG

2.7 MKV

2.8 TS

2.9 RMVB

2.10 WEBM

常见在线流媒体格式：mp4、flv、f4v、webm
移动设备格式：m4v、mov、3gp、3g2
RealPlayer ：rm、rmvb
微软格式：wmv、avi、asf
MPEG 视频：mpg、mpeg、mpe、ts
DV格式：div、dv、divx
其他格式：vob、dat、mkv、lavf、cpk、dirac、ram、qt、fli、flc、mod

3. 视频帧

3.1.1 帧

根据编码思路，H.264标准分了三种帧：I帧、P帧与B帧
（1）I帧
I 帧，帧内编码图像帧，不参考其他图像帧，只利用本帧的信息进行编码。
I帧是一个完整编码的帧，即一个序列的第一帧。
（2）P帧
P 帧，即预测编码图像帧，利用之前的 I 帧或 P 帧，进行帧间预测编码。
P帧根据之前的之前的I帧或者P帧，利用运动预测的方式，编码与前一帧的差值。由于I、P帧可能被后续的P帧作为计算基础所参考，所以I、P帧都称之为**参考帧****，**参考帧的错误解码会导致后续的帧解码也发生错误，造成解码错误扩散。
（3）B帧
B 帧，即双向预测编码图像帧，它既需要之前的图像帧（I 帧或 P 帧），也需要后来的图像帧（P 帧），进行帧间双向预测编码。
B帧需要同时根据前后两个参考帧作为基础进行计算，但B帧本身不作为参考帧，B帧解码错误不会引起扩散。同时B帧的编码效率最好，可以提高视频压缩率，但会增加视频解码的复杂度。
B帧并不是必须的，在需要压缩空间时通常会使用，例如存电影等，使用大量的B帧可以节约空间。而对于直播等这种对实时性要求比较高的场景，B帧需要缓冲多余的数据，还会加重CPU的负担，因此通常不使用B帧。

3.1.2 GOP与IDR

GOP即是一个序列长度，由一组I、P、B帧组成。其中序列的首帧（显然，一定是I帧）被称为IDR帧，解码器在读到IDR帧后会清除掉之前参考帧的缓存，从这个I帧开始重新进行计算，可以避免前边的GOP出错影响到后续的解码。
现代编码器会动态的根据帧内容变化幅度，来决定GOP的长度，获得一个比较好的编码效率。

3.1.3 PTS和DTS

在使用B帧时，由于B帧需要前后参考的特性，所以需要把B帧之后的P帧挪到前边去传输。但这样就引入了一个问题，播放的顺序与传输的顺序不一致。所以就有PTS和DTS，分别用来标识传输的顺序与播放的顺序，像这样
Stream: I P B B
DTS: 1 2 3 4
PTS: 1 4 2 3

3.1.4 帧内压缩

（1）帧内预测
一般来说，对于一幅图片，图片中像素的分布一般是有规律的，可以用几种模式大致的匹配像素分布的样，子H.264就根据这个原理进行帧内预测。按像素预测效率比较低，因此H.264提出块的概念。一个1616的像素块成21为宏块，一个宏块还能进一步分为一个44的子块（考虑到YUV的编码模式，都是基于4个Y共享UV的逻辑）。H.264提前针对子块和宏块设定了预置的预测模式（色度块和亮度块都有自己的预测模式），用于描述对于相邻块的变化。
对于比较平坦的部分，我们记录相邻宏块的预测模式即可。对于带有大量细节的部分，则细化到子块，记录子块的变化模式。
显然，这样预测出来的图片和现实图片是有差别的，所以我们还需要计算一遍残差，即和原始图片的区别。将残差和预测模式合到一起，就可以还原出原来的图片了
（2）残差压缩
我们刚刚获得的残差图还是比较大的，使用DCT-离散余弦变换可以进一步压缩残差图/
（3）量化
H.264还会对图像进行量化，计算方法如下
FQ = round( y / QP )
即对于每个像素点的编码数据y，会指定一个步长QP，用编码数值去除步长就会获得一个编码范围比较小的量化值FQ。但是量化同时会使图像的动态范围变窄，会丢失一些精度。

4. 视频基础概念

4.1 分辨率（Resolution）

视频的分辨率指的是图像的像素数量，通常表示为宽度×高度（例如，1920×1080）。较高的分辨率意味着更多的像素，提供更清晰的图像。

4.2 帧率（Frame Rate）

视频的帧率表示每秒显示的图像数量，通常以帧每秒（fps）为单位。常见的视频帧率包括30fps、60fps等。较高的帧率可以提供更流畅的视频体验。

4.3 码率（Bit Rate）

视频的码率表示每秒传输的数据量，通常以比特率（bps）为单位。较高的码率可以提供更高质量的图像，但也需要更高的带宽。

码率与视频质量关系：视频的码率与图像质量之间存在一定的关系。较高的码率通常会提供更高的图像质量，因为更多的数据可以用于表示图像细节和运动。然而，随着码率增加，图像质量的提升逐渐减弱。在一定范围内，增加码率可以改善图像质量，但超过一定点后，增加的码率对图像质量的改善效果较小。
码率与文件大小关系：视频的码率也会直接影响到视频文件的大小。较高的码率会导致更大的文件大小，因为更多的数据被用于表示图像细节和运动。因此，在视频编码中需要权衡码率和文件大小之间的关系，以平衡视频质量和存储/传输成本。
码率与带宽要求关系：视频的码率还决定了在传输视频时所需的带宽。较高的码率需要更大的带宽来传输，因此在网络传输视频时，需要考虑网络带宽的限制。如果网络带宽不足以支持视频的码率，可能会导致视频卡顿、缓冲等问题。
码率与编码效率关系：不同的视频编码标准具有不同的编码效率，即相同码率下能够提供的视频质量。一种高效的编码标准可以在相同码率下提供更好的图像质量，或者在相同图像质量下使用更低的码率。因此，选择合适的视频编码标准也是影响视频码率和质量的重要因素。
4.4 编码（Encoding）
视频编码是将原始视频信号转换为数字数据的过程。常见的视频编码标准包括H.264（AVC）、H.265（HEVC）、MPEG-2等。编码可以压缩视频数据，减小文件大小或传输带宽。
4.5 容器格式（Container Format）
视频容器格式是将视频、音频和其他元数据组合在一起的文件格式。常见的视频容器格式包括MP4、MKV、AVI等。容器格式可以包含不同编码的音视频流，并提供元数据和同步信息。

5. 音频编码

5.1 AAC

5.2 MP3

5.3 WMA

5.4 WAV

5.5 OGG

5.6 APE

5.7 AC-3

5.8 FLAC

6. 音频格式

6.1 MP3

6.2 AAC

6.3 WAV

6.4 AIFF

7. 音频基础概念

7.1 采样率（Sample Rate）

采样率表示每秒对声音信号进行采样的次数，通常以赫兹（Hz）为单位。采样频率越高，声音的还原就越真实越自然，当然数据量就越大。采样率根据使用类型不同大概有以下几种：

8khz：电话等使用，对于记录人声已经足够使用。
22.05khz：广播使用频率。
44.1khz：音频CD。
48khz：DVD、数字电视中使用。
96khz-192khz：DVD-Audio、蓝光高清等使用。
采样精度常用范围为 8bit-32bit，而 CD 中一般都使用 16bit。

7.2 位深度（Bit Depth）

位深度也称采样位数，也称量化级、样本尺寸、量化数据位数，指每个采样点能够表示的数据范围，它以位（Bit）为单位。采样位数通常有 8bits 或 16bits 两种，采样位数越大，所能记录声音的变化度就越细腻，相应的数据量就越大。8 位字长量化（低品质）和 16 位字长量化（高品质），16 bit 是最常见的采样精度。

7.3 通道数（Channels）

声道数是指支持能不同发声的音响的个数，它是衡量音响设备的重要指标之一。
音频的通道数表示同时传输的独立音频信号的数量。常见的通道数包括单声道（Mono）、立体声（Stereo）、5.1声道等。不同的通道数可以提供不同的音频空间效果。

7.4 量化

将采样后离散信号的幅度用二进制数表示出来的过程称为量化。（日常生活所说的量化，就是设定一个范围或者区间，然后看获取到的数据在这个条件内的收集出来）。

7.5 比特率

比特率（也称位速、比特率），是指在一个数据流中每秒钟能通过的信息量，代表了压缩质量。比如 MP3 常用码率有 128kbit/s、160kbit/s、320kbit/s 等等，越高代表着声音音质越好。
比特率 = 采样率 × 采样深度 × 通道数。比如采样率 = 44100，采样深度 = 16，通道 = 2 的音频的的比特率就是 44100 * 16 * 2 = 1411200 bps。

7.6 编码（Encoding）

音频编码是将原始音频信号转换为数字数据的过程。常见的音频编码标准包括MP3、AAC、Opus等。编码可以压缩音频数据，减小文件大小或传输带宽。

7.7 容器格式（Container Format）

音频容器格式是将音频、视频和其他元数据组合在一起的文件格式。常见的音频容器格式包括MP3、WAV、FLAC等。容器格式可以包含不同编码的音频流，并提供元数据和同步信息。

四、图像像素

1. RGB

RGB是red,green, blue的简写，也就是红绿蓝三种颜色。他们是三原色，通过不同的比例相加，以产生多种多样的色光。

（1）索引形式

A. 索引格式是计算机早期的一种格式，它的优点比较节省空间，缺点是表现的色彩有限，目前格式基本被抛弃了，不再被使用，这里只做简单介绍。
B. 索引格式中的bit存储的并非是实际的R,G, B值，而是对应点的像素在调色板中的索引。
C. 调色板，可以简单理解为通过编号映射到颜色的一张二维表。如01索引，表示红色。采用索引格式的RGB，红色的像素对应存储的值便是索引01。就像指针一样，存储的是值的地址，而不是真正的值。

RGB1
每个像素用1个bit表示，可表示的颜色范围为双色，即黑和白。1个bit只能表示0，1两种值。需要调色板，不过调色板只包含两种颜色。
RGB4
每个像素用4个bit表示，4个bit所能够表示的索引范围是0-15，共16个。也就是可以表示16种颜色。即调色板中包含16中颜色。
RGB8
每个像素用8个bit表示。8个bit所能够表示的索引范围是0-255，共256个。也就是可以表示256中颜色。即调色板中包含256中颜色。

（2）像素形式

RGB像素格式中的bit存储的是每一个像素点的R,G,B值
注意：java默认使用大端字节序，c/c++默认使用小端字节序，android平台下Bitmap.config.ARGB_8888的Bitmap默认是大端字节序，当需要把这个图片内存数据给小端语言使用的时候，就需要把大端字节序转换为小端字节序。例如：java层的ARGB_565传递给jni层使用时，需要把java层的ARGB_565的内存数据转换为BGRA565!

RGB565

一个像素用16个bit = 2个字节表示，R=5 G=6 B=5

R = color & 0xF800; //获取高字节的5个bit
G = color & 0x07E0; //获取中间6个bit
B = color & 0x001F; //获取低字节5个bit

RGB555

一个像素用16个bit = 2个字节，但是最高位不用，R=5 G=5 B=5

R = color & 0x7C00; //获取高字节的5个bit
G = color & 0x03E0; //获取中间5个bit
B = color & 0x001F; //获取低字节5个bit

RGB24

一个像素用24个bit = 3个字节来表示，R=8 G=8 B=8

R = color & 0x0000FF00;
G = color & 0x00FF0000;
B = color & 0xFF000000;

RGB32

一个像素用32个bit = 4个字节来表示，R=8 G=8 B=8，存储顺序为B, G, R,最后8个字节保留

R = color & 0x0000FF00;
G = color & 0x00FF0000;
B = color & 0xFF000000;
A = color & 0x000000FF;

2. YUV

YUV，是一种颜色编码方法。常使用在各个影像处理组件中。 YUV在对照片或影片编码时，考虑到人类的感知能力，允许降低色度的带宽。

Y表示明亮度（Luminance或Luma），也就是灰度值；
U(Cb)表示色度（Chrominance）
V(Cr)表示浓度（Chroma）
通常UV一起描述影像色彩和饱和度，用于指定像素的颜色。
对于 YUV 图像来说，并不是每个像素点都需要包含了 Y、U、V 三个分量，根据不同的采样格式，可以每个 Y 分量都对应自己的 UV 分量，也可以几个 Y 分量共用 UV 分量。

（1）采样格式

YUV444

YUV 4:4:4 采样，意味着 Y、U、V 三个分量的采样比例相同，因此在生成的图像里，每个像素的三个分量信息完整，都是 8 bit，也就是一个字节。
图像像素数据: Y0U0V0 Y1U1V1 Y2U2V2 Y3U3V3
采样的码流: Y0 U0 V0 Y1 U1 V1 Y2 U2 V2 Y3 U3 V3

为什么叫4:4:4 , 意思是每4个像素里的数据有4个Y， 4个U, 4个V

Y分量的大小： wh
U分量的大小： wh
V分量的大小： w*h
通过YUV444采样的图像大小和RGB颜色模型的图像大小是一样的。
一张 1280 * 720 大小的图片，在 YUV 4:4:4 采样时的大小为：

(1280*720*8 + 1280*720*8 + 1280*720*8)/8/1024/1024 = 2.64 MB

YUV422

YUV 4:2:2 采样，意味着每采样过一个像素点，都会采样其 Y 分量，而 U、V 分量就会间隔一个采集一个，Y 分量和 UV 分量按照 2 : 1 的比例采样。如果水平方向有8个像素点，那么就采样8 个 Y 分量，4 个 UV 分量。
图像像素数据: Y0U0V0 Y1U1V1 Y2U2V2 Y3U3V3
采样的码流: Y0 U0 Y1 V1 Y2 U2 Y3 V3

为什么叫4：2：2，意思是每4个像素里面有4个Y，2个U，2个V

Y分量的大小： wh
U分量的大小： wh/2
V分量的大小： wh/2
一张 1280 * 720 大小的图片，在 YUV 4:2:2 采样时的大小为：
(12807208 + (1280720)/28 + (1280720)/2*8)/8/1024/1024 = 1.76 MB
通过与YUV444采样进行比较可以算出，YUV422 采样的图像比YUV444采样图像节省了三分之一的存储空间，在传输时占用的带宽也会减少。

YUV420

YUV 4:2:0 采样，并不是指只采样 U 分量而不采样 V 分量。而是指，其中，每采样过一个像素点，都会采样其 Y 分量，而 U、V 分量就会间隔一行按照 2 : 1 进行采样。比如，第一行扫描时，YU 按照 2 : 1 的方式采样，那么第二行扫描时，YV 分量按照 2:1 的方式采样。对于每个色度分量来说，它的水平方向和竖直方向的采样和 Y 分量相比都是 2:1 。

图像像素数据： [Y0 U0 V0]、[Y1 U1 V1]、 [Y2 U2 V2]、 [Y3 U3 V3]
[Y5 U5 V5]、[Y6 U6 V6]、 [Y7 U7 V7] 、[Y8 U8 V8]
采样的码流： Y0 U0 Y1 Y2 U2 Y3
Y5 V5 Y6 Y7 V7 Y8

为什么叫4：2：0，意思是每4个像素中有4个Y，2个U，0个V，而下一行的四个像素中有4个Y，0个U，2个V
Y分量的大小： wh
U分量的大小： wh/4
V分量的大小： w*h/4
一张 1280 * 720 大小的图片，在 YUV 4:2:0 采样时的大小为：

(1280*720*8 + (1280*720)/4*8 + (1280*720)/4*8)/8/1024/1024 = 1.32 MB

可以看到 YUV420 采样的图像比 RGB 模型图像节省了一半的存储空间，因此它也是比较主流的采样方式。

（2）存储格式

planar
平面格式，先连续存储所有像素点的Y，紧接着存储所有像素点的U，然后是所有像素点的V；将几个分量分开存，比如YUV420中，data[0]专门存Y，data[1]专门存U，data[2]专门存V。
packed
打包格式，每个像素点的Y,U,V是连续交错存储的，所有数据都存在data[0]中。
（3）常见格式
根据采样方式和存储格式的不同，就有了多种 YUV 格式。这些格式主要是基于 YUV 4:2:2 和 YUV 4:2:0 采样。
常见的基于 YUV 4:2:2 采样的格式如：
YUV422P
YUV 422P 格式，又叫做 I422，采用的是平面格式进行存储，先存储所有的 Y 分量，再存储所有的 U 分量，再存储所有的 V 分量。

Y0 Y1 Y2 Y3 U0 U1 V0 V1

YUYV
YUYV 格式是采用打包格式进行存储的，指每个像素点都采用 Y 分量，但是每隔一个像素采样它的 UV 分量，排列顺序如下：

Y0 UO Y1 V0 Y2 U1 Y3 V1

Y0 和 Y1 公用 U0 V0 分量，Y2 和 Y3 公用 U1 V1 分量

UYVY
UYVY 格式是采用打包格式进行存储，它的顺序和 YUYV 相反，先采用 U 分量再采样 Y 分量，排列顺序如下：

U0 Y0 V0 Y1 U1 Y2 V1 Y3
常见的基于 YUV 4:2:0 采样的格式如：

	YUV420采样	YUV420采样
YUV420P存储	YV12	NV12
YUV420SP存储	NV12	NV21

YUV420P 和 YUV420SP 都是基于 Planar 平面模式进行存储的，先存储所有的 Y 分量后， YUV420P 类型就会先存储所有的 U 分量或者 V 分量，而 YUV420SP 则是按照 UV 或者 VU 的交替顺序进行存储了.

YUV420P
YUV420SP
YV12
YV12，采用的是平面格式进行存储，先存 Y 分量，再存 V 分量，最后U分量

Y0 Y1 Y2 Y3 Y4 Y5 Y6 Y7
V0
U0

YU12
YU12，采用的是平面格式进行存储，先存 Y 分量，再存 U分量，最后V分量

Y0 Y1 Y2 Y3 Y4 Y5 Y6 Y7
U0
V0

NV12 (ios常用)
NV12，采用的是平面格式进行存储，再 UV 进行交替存储

Y0 Y1 Y2 Y3 Y4 Y5 Y6 Y7
U0 V0

NV21(android常用)
NV21，采用的是平面格式进行存储，再 VU 进行交替存储

Y0 Y1 Y2 Y3 Y4 Y5 Y6 Y7
V0 U0

五、关键技术和应用

1. OpenCV（JavaCV，JavaCpp）

开源的计算机视觉和图像处理库，提供了丰富的函数和工具，用于处理图像和视频数据

2. OpenCL/OpenGL

OpenCL是一种基于开放标准的平台，它可以让应用程序使用各种计算平台，包括CPU、GPU和FPGA。OpenCL的主要目的是充分利用基于多核处理器的计算机硬件。

教程：https://deepinout.com/opencl

3. FFmpeg

开源的跨平台多媒体音视频处理工具集

4. CUDA

CUDA（Compute Unified Device Architecture）是由NVIDIA开发的并行计算平台和编程模型。它允许开发者利用NVIDIA GPU的并行计算能力来加速各种计算任务，包括科学计算、机器学习、图形渲染等。CUDA提供了一组编程接口和工具，使开发者能够在GPU上编写并行程序，并利用GPU的大规模并行处理能力来加速计算。

5. TensorRT

Tesseract是一个开源的OCR（Optical Character Recognition）引擎，由Google开发和维护。它能够将图像中的文本内容转换为可编辑的文本形式。Tesseract支持多种语言，并且具有一定的准确性和稳定性。

6. SRS

流媒体服务，官网地址：https://ossrs.net/

7. ZLMediaKit

流媒体服务，官网地址：https://docs.zlmediakit.com/

你可能感兴趣的:(音视频,视频编解码,opencv,实时音视频,视觉检测,mpeg-1,mpeg-2)

【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
承德十大亲子鉴定医院名单(附2024年10所正规医院) 国医基因陈主任
承德哪家医院可以做亲子鉴定？承德市中心医院、中国人民解放军第二六六医院、承德医学院附属医院等都可以做常规亲子鉴定采样采集，一般的医院并不可以为你提供常规亲子鉴定检测的服务。承德亲子鉴定中心地址：承德市西大街路北11号（承德国医基因）。一般只有少数三甲医院可以做亲子鉴定采样，或者当地亲子鉴定中心可以做亲子鉴定。如果想做亲子鉴定，最好直接到亲子鉴定中心内或亲子鉴定医院采样点内进行双方抽血鉴定，这样会更
积极配合，防疫有我临泽四中初一六班领读人刘玮
2021年10月19日，疫情又突然来到我们身边，西安确诊了两名上海退休教师患有新冠肺炎，重点是他们刚从我们美丽的七彩丹霞和平山湖大峡谷旅游离开。紧接着张掖甘州区发现了核酸检测阳性病例，听到了这个消息，我们每一个人都很紧张，因为从来没有近距离遇到过这样的事情。10月20日，学校停课，所以我们又要经历第二次疫情假期，不过这个假期非常特殊，要求全民多次做核酸检测。秋天才过一半，肺炎疫情的突然到来，给我们
元宇宙中的视觉技术：虚拟化身与场景生成 xcLeigh 计算机视觉CV 元宇宙虚拟化身场景生成 AIGC 数字孪生
元宇宙中的视觉技术：虚拟化身与场景生成前言一、元宇宙与视觉技术的深度关联1.1元宇宙概念深度剖析1.2视觉技术：元宇宙的“灵魂之窗”二、虚拟化身：数字世界的“第二自我”2.1虚拟化身技术的深度解析2.1.1核心技术构成2.1.2技术实现原理与流程2.2虚拟化身的应用领域及案例展示2.2.1游戏娱乐领域2.2.2教育培训领域三、场景生成：构建元宇宙的虚拟天地3.1场景生成技术全景透视3.1.1关键技
【Coze搞钱实战】3. 避坑指南：对话流设计中的6个致命错误（真实案例） AI_DL_CODE Coze平台对话流设计客服Bot避坑用户流失封号风险智能客服配置故障修复指南
摘要：对话流设计是智能客服Bot能否落地的核心环节，直接影响用户体验与业务安全。本文基于50+企业Bot部署故障分析，聚焦导致用户流失、投诉甚至封号的6大致命错误：无限循环追问、人工移交超时、敏感词过滤缺失、知识库冲突、未处理否定意图、跨平台适配失败。通过真实案例拆解每个错误的表现形式、技术根因及工业级解决方案，提供可直接复用的Coze配置代码、工作流模板和检测工具。文中包含对话流健康度检测工具使
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
几张电影票《阿凡达水之道》梅落如雪
夫喜欢视觉和听觉的盛宴，追求极致画面和声音的享受，我却一直不愿意为家里买一个硕大的电视。因为这些年，走在贫农的路线，却始终努力追求高端电视，最终的经验是，买一台好电视--浪费！我说阿凡达出来水之道，他却说如果不去万达的电影院，别的影院去没意思，视觉效果和听觉效果都不好。唉，我摸摸口袋里的三瓜俩枣，心里默默心疼了一下银子。为了几两碎银子，天天上班，我容易嘛。结果这小子追求这个。。。。他说要不不去看了
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
【STM32编码器接口测速】实现测速功能 jingjing~ 嵌入式分享 stm32 单片机嵌入式硬件
演示视频：STM32编码接口测速_哔哩哔哩_bilibili一、前言在电机控制与运动系统开发中，速度检测是一个核心环节。本次我们使用STM32F103的TIM3编码器接口模式配合定时器中断，实现对增量型编码器的转速测量，并通过OLED实时显示当前速度。本文适合具有基础STM32外设编程能力的同学阅读，使用环境如下：主控芯片：STM32F103C8T6（或相同系列）开发环境：KeilMDK显示模块：
基于STM32的智能鱼缸设计 DS小龙哥智能家居与物联网项目实战 stm32 单片机 arm
1.前言为了缓解学习、生活、工作带来的压力，提升生活品质，许多人喜欢在家中、办公室等场所养鱼。为节省鱼友时间、劳力、增加养鱼乐趣；为此，本文基于STM32单片机设计了一款智能鱼缸。该鱼缸可以实现水温检测、水质检测、自动或手动换水、氛围灯灯光变换和自动或手动喂食等功能为一体的控制系统，可通过控制键进行一键控制。从功能上分析，需要用到的硬件如下：（1）STM32系统板（2）水温温度检测传感器:测量水温
PaddleOCR 快速开始张欣-男 PaddlePaddle PaddleOCR OCR
1.安装1.1安装PaddlePaddle#GPUcudapipinstallpaddlepaddle-gpu#CPUpipinstallpaddlepaddle1.2安装PaddleOCRwhl包pipinstallpaddleocr2.便捷使用2.1命令行使用2.1.1中英文模型检测+方向分类器+识别全流程：–use_angle_clstrue设置使用方向分类器识别180度旋转文字，–use_
基于Python引擎的PP-OCR模型库推理张欣-男 python ocr 开发语言 PaddleOCR PaddlePaddle
基于Python引擎的PP-OCR模型库推理1.文本检测模型推理#下载超轻量中文检测模型：wgethttps://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tartarxfch_PP-OCRv3_det_infer.tarpython3tools/infer/predict_det.py--image_dir=".
4D卓越团队-习书C3 林晔0302
第三章4D系统-----神奇坐标的诞生一诞生背景：1物理学背景简化的二乘二矩阵，坐标系；2荣格1905年发表的人的性格发展理论；词汇参考MBTI指标坐标轴X：作出决策是用情感还是逻辑坐标轴Y：获取信息是靠直觉还是感觉。五感：视觉听觉嗅觉味觉触觉占70%二4D系统分析领导力领导者特征四维度：情感与直觉----绿色培养型情感与感觉---黄色包容型逻辑与直觉---蓝色展望型逻辑与感觉--橙色指导型三4D
隔离第14天：我今天当了一次“大白” 我的腰椎间盘突出治疗笔记
此大白非彼大白一、每日思考昨天晚上接到通知，今天又要全量做核酸，这是第五次做了。社区招募志愿者，我毅然报了名。第一次做核酸的时候，我就想报名，当时小区刚隔离，大家都惶惶不安，各种组织也是比较混乱，事情安排也比较着急，就没有成行。第二至四次，因为孩子学校有阳性，要求居家隔离，没法做志愿者。这一次，可以下楼，并且是周六，可以说是天时地利与人和均具备，所以，愉快成行。早上6:20集合，7:20开始检测核
高铁站违规撑伞识别误检率↓79%：陌讯多模态融合算法实战解析 2501_92722744 算法人工智能目标检测计算机视觉目标跟踪
原创声明本文为原创技术解析，核心技术参数与架构参考自《陌讯技术白皮书》，禁止未经授权的转载与改编。一、行业痛点：密集场景下的违规撑伞识别难题在高铁站、地铁站等交通枢纽，违规撑伞（如非雨天在站台、通道内持伞）可能引发客流拥堵、设备刮擦等安全隐患。然而，传统视觉识别方案面临三大核心挑战：环境干扰大：进出站口光线突变（正午强光/夜间弱光）导致伞面特征提取不稳定，某枢纽站点实测数据显示，阴雨天违规撑伞识别
构建跨平台远程医疗系统中的视频通路技术方案探究音视频牛哥 RTMP播放器 RTSP播放器大牛直播SDK 音视频远程医疗国产系统rtmp 国产系统rtsp 信创rtsp播放器信创rtmp播放器大牛直播SDK
一、远程医疗走向日常化，音视频能力成为关键基础设施随着医疗数字化与分级诊疗体系的不断演进，远程医疗正从试点探索阶段，逐步迈向常态化、标准化应用。从县域医院远程问诊、基层医疗协作，到大型三甲医院的术中协同、专科教学直播，再到跨机构的医疗资源共享和辅助诊断，音视频能力已成为整个远程医疗系统中的核心支撑与底层基座。然而，医疗行业对音视频系统的要求远远高于普通办公或娱乐场景。实时性不仅关乎沟通效率，更直接
传统公共厕所的弊端太多？别慌，环保厕所来教你正确的如厕姿势钢结构车间
人们一谈起公共厕所，对公共厕所的印象只能通过脏乱差三个字来形容，很多人都不愿意在外上厕所，自从我国实行厕所革命以来，公共厕所的设施环境都有了明显的提高，环保厕所的应用也使得生态环境得到了改善，提升了人们的如厕感受。【内部环境卫生】环保公厕内部采用的是智能化高科技系统，主要有智能清洁系统和智能除臭系统。智能除臭系统可以自动检测公厕内部环境的异味，如果超过限定值的话，就会自动启动除臭系统，使得公司内部
window显示驱动开发—支持 Direct3D 版本 10.1
1.Direct3D10.1的版本标识(1)版本号与头文件定义API版本号:D3D10_1_SDK_VERSION(在d3d10_1.h中定义)运行时检测:通过ID3D10Device::CheckFeatureSupport查询D3D10_FEATURE_LEVEL_10_1支持。D3D10_FEATURE_LEVELfeatureLevel=D3D10_FEATURE_LEVEL_10_1;i
七绝忠魂清风8351
看图作诗青山绿水风光秀，独坐江边忆更稠。哀国英雄身赴死，忠魂万代永存留。检测结果(平水韵)青山绿水风光秀独坐江边忆更稠【稠：十一尤】押韵哀国英雄身赴死忠魂万代永存留【留：十一尤】押韵存在多音字：更，请根据词意判断。平仄符合要求，请留意多音字！
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
基于物联网及数字孪生技术的数字农业系统设计与实现 hrbcodefarmer
作者：曲井致摘要:数字农业是我国农业现代化的重要组成部分,是实现乡村振兴战略的有力抓手｡物联网技术是实现数字农业的重要技术手段，数字孪生是物联网技术的重要技术，能够实现现实世界中事务在网络世界的数字映射，为了实现农业现代化，进一步解放人力物力，对远程监控和操控数字农业的深入研究具有非常重要的意义。在应用传感器检测技术和无线通信技术的基础上，大力发展数字农业，为我国农业现代化奠定了基础。本文从数字农
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
yolo 目标检测600类目标大霸王龙行业+领域+业务场景=定制 YOLO 目标检测人工智能
1.模型架构调整类别适配：将YOLO输出层的类别节点数调整为600（如YOLOv5的detect.yaml中修改nc=600），并更新类别名称映射表（classes.txt）。骨干网络优化：若使用YOLOv5/v8，可升级骨干网络（如C3模块深度）或替换为更高性能的主干（如EfficientNet、ResNet-101），以增强复杂场景的特征提取能力。多尺度检测头：保留或扩展YOLO的多尺度输出（
2018-07-19 慧慧1981
项目紧邻新天坛医院东北角，与新天坛医院、新北京口腔医院距离都在有50米左右，周边交通便利；项目总面积30000多平米。现合作第三方影像中心、基因检测实验室、互联网医疗、月子会所、产后修复中心、医疗器械、医药科技、银行、药店、心理咨询中心、健康管理中心、医院展示体验中心、品牌餐饮、咖啡厅等与新天坛医院能够对接的商业服务配套项目！项目紧邻新天坛医院东北角，与新天坛医院、新北京口腔医院距离都在有50米左
辽阳地区15家亲子鉴定机构一览(附2024年汇总鉴定) 国医基因吴主任
当亲子关系的真相成为家庭和睦的绊脚石时，辽阳的亲子鉴定服务便成为了解决这一难题的得力助手。它利用先进的DNA检测技术，对样本进行精准分析，确保鉴定结果的准确性和可靠性。通过亲子鉴定，人们可以更加清晰地了解自己和亲人之间的血缘关系，从而消除误会、增进理解、促进家庭和谐。辽阳亲子鉴定机构1、辽阳市国医基因DNA亲子鉴定中心辽阳市亲子鉴定中心地址：辽阳市文圣区东六道街40号业务范围：司法亲子鉴定咨询、无
ubnutu网络
ubnutu网络‍在Ubuntu系统中连接外网（外部网络）的方法主要取决于你的网络环境（有线/无线）和网络类型（DHCP自动分配或静态IP），以下是常见的连接方式：一、通过图形界面连接（适合桌面版）1.有线网络（以太网）直接用网线连接电脑和路由器/交换机，系统通常会自动检测并通过DHCP获取IP地址，无需额外配置。若未自动连接：点击屏幕右上角的网络图标（类似Wi-Fi或网线图标）。在弹出的菜单中，
使用OpenCV对视频进行处理：视频读取、视频显示和视频保存，视频追踪等无规则ai OpenCV opencv 人工智能计算机视觉 python
一.视频的读写1.从文件中读取视频并播放（1）创建读取视频的对象cap=cv2.VideoCapture(filepath)filepath：视频文件的路径（2）视频的属性信息a.获取视频的某些属性retval=cap.get(propId)propId：从0到18的数字，每个数字表示视频的属性常用的属性有属性名对应数值功能描述CAP_PROP_POS_MSEC0视频当前的播放位置，单位为毫秒。C
ESP32-s3开发板按键中断处理详解 - 从零开始实现Boot按键功能
ESP32-s3开发板按键中断处理详解-从零开始实现Boot按键功能前言各位小伙伴们好！今天给大家带来一篇ESP32开发板上按键中断处理的干货教程。在嵌入式开发中，按键是最基础但也最常用的输入方式，掌握了按键中断的处理，你就能实现更加灵活的人机交互功能。本文将带你一步步实现ESP32开发板上Boot按键的中断检测功能，希望能对你的项目开发有所帮助！目录开发环境准备按键硬件介绍官方示例代码运行从零创
璧山做亲子鉴定的机构在哪里(附2024年最新亲子鉴定办理流程) 成之嘉_基因检测
2024年璧山最新亲子鉴定收费标准：个人隐私亲子鉴定收费标准：￥2000-￥2400，常见用途：怀疑孩子的父亲身份，想私下偷偷检测；无创胎儿亲子鉴定收费标准：￥4500-￥5000，常见用途：孩子未出世，怀疑胎儿的父亲身份，想思想偷偷检测；司法亲子鉴定收费标准：￥2400-￥3600，常见用途：上户口、移民；成之嘉亲子鉴定优势1、全程匿名2、快速出结果3、检测更精准口号：每一次检测都是一份责任个人
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，