薛慕昭

ESP32-S3 I2S音频开发实战指南

前言

I2S简介

TDM 通信模式(标准)

PDM 通信模式

. 对比总结

为什么要学习I2S

PCM原始数据

I2S录制声音

I2S播放声音

WAV音频

WAV 文件头结构（44 字节）

解析wav格式数据

struct.unpack 的基本用法

格式化字符串 (fmt)

示例 1：解析单个值

示例 2：解析多个值

示例 3：解析混合类型

示例 4：解析字符串

示例 5：解析 WAV 文件头

注意事项

总结

实操演练

保存wav格式数据

结语

前言

在智能硬件和物联网设备蓬勃发展的今天，高质量的音频处理能力已成为许多嵌入式项目的核心需求。ESP32-S3芯片内置的I2S(Inter-IC Sound)接口为开发者提供了专业级的数字音频解决方案。本文将系统介绍I2S协议的工作原理，深入解析ESP32-S3的I2S外设特性，并通过完整的代码示例展示从音频采集、处理到播放的全流程开发方法。无论您是希望为智能设备添加语音功能，还是开发专业的音频处理应用，本文都将为您提供实用的技术指导和最佳实践。

I2S简介

I2S（Inter-IC Sound，集成电路内置音频总线）是一种同步串行通信协议，通常用于在两个数字音频设备之间传输音频数据。

ESP32-S3 包含 2 个 I2S 外设。通过配置这些外设，可以借助 I2S 驱动来输入和输出采样数据。

TDM 通信模式(标准)

I2S 总线包含以下几条线路：

MCLK：主时钟线。该信号线可选，具体取决于从机，主要用于向 I2S 从机提供参考时钟。
BCLK：位时钟线。用于数据线的位时钟。
WS：字（声道）选择线。通常用于识别声道。
DIN/DOUT：串行数据输入/输出线。如果 DIN 和 DOUT 被配置到相同的 GPIO，数据将在内部回环。

PDM 通信模式

I2S 总线包含以下几条线路：

CLK：PDM 时钟线。
DIN/DOUT：串行数据输入/输出线。

每个 I2S 控制器都具备以下功能，可由 I2S 驱动进行配置：

可用作系统主机或从机
可用作发射器或接收器
DMA 控制器支持流数据采样，CPU 无需单独复制每个采样数据

每个控制器都有独立的 RX 和 TX 通道，连接到不同 GPIO 管脚，能够在不同的时钟和声道配置下工作。注意，尽管在一个控制器上 TX 通道和 RX 通道的内部 MCLK 相互独立，但输出的 MCLK 信号只能连接到一个通道。如果需要两个互相独立的 MCLK 输出，必须将其分配到不同的 I2S 控制器上。

. 对比总结

特性	TDM	PDM
核心目标	多路信号时分复用	高精度模数信号转换
适用场景	周期性数据（语音、固定速率流）	高动态模拟信号（音频、传感器）
抗噪能力	依赖信道质量	强（数字脉冲抗干扰）
硬件复杂度	中等（需同步电路）	低（单比特量化）
延迟	低（固定时隙）	较高（过采样+滤波）

参考链接： I2S - ESP32-S3 - — ESP-IDF 编程指南 v5.4.1 文档

为什么要学习I2S

高质量音频传输：I2S是专为音频设计的通信协议，能够传输高质量的音频数据，适合音频播放、录音等应用。
低延迟：I2S支持实时音频处理，适合对延迟要求高的场景，如语音识别或实时音频效果处理。
ESP32内置I2S外设：ESP32集成了I2S接口，可直接连接麦克风、DAC、ADC等音频设备，简化硬件设计。
灵活性：I2S支持多种数据格式和采样率，适应不同的音频需求。
音频播放与录音：可用于音乐播放器、录音设备等。
语音识别与控制：适合智能音箱、语音助手等需要音频输入输出的设备。
音效处理：支持实时音效处理，如均衡器、混音器等。
低功耗：ESP32的I2S外设在低功耗模式下仍能高效工作，适合电池供电设备。
高性能：ESP32的高性能处理器结合I2S，能够处理复杂的音频任务。

总之I2S有助于开发高质量的音频应用，扩展项目功能，尤其在物联网和智能设备领域具有广泛应用。丰富的资源和强大的硬件支持使得学习和开发更加便捷。

PCM原始数据

I2S录制声音

"""
使用I2S读取数据
数据宽度16bit
采样率16000Hz
缓冲区大小1024
"""

from machine import I2S
from machine import Pin
import time

sck_pin = Pin(14)
ws_pin = Pin(13)
sd_in_pin = Pin(12)
sd_out_pin = Pin(45)

audio_in = I2S(0, sck=sck_pin, ws=ws_pin, sd=sd_in_pin, 
               mode=I2S.RX,     # only RX mode available
               bits=16,         # 数据宽度16bit，2字节
               format=I2S.MONO, # 单通道MONO, 双通道STEREO
               rate=16000,      # 采样率16000Hz
               ibuf=2048        # 缓冲区大小1024字节
)
print("I2S init complete!")

# 等待I2S初始化完成
# time.sleep_ms(500)

# 所有数据的列表
frames = []

print("开始录制...")
# 录制5s
start = time.time()
# 读取数据
while True:
    if time.time() - start > 5:
        break
    # 创建一个字节数组
    buf = bytearray(1024)
    num = audio_in.readinto(buf)
    frames.append(buf)
    
# 将音频数据写到文件
with open("audio.pcm", "wb") as f:
    for frame in frames:
        f.write(frame)
        
audio_in.deinit();

print("录音结束：", len(frames), "帧")
# 合并所有数据
data = b''.join(frames)
print("数据长度：", len(data))

I2S播放声音

"""
使用I2S播放数据
数据宽度16bit
采样率16000Hz
缓冲区大小1024
"""

from machine import I2S
from machine import Pin
import time

sck_pin = Pin(14)
ws_pin = Pin(13)
sd_in_pin = Pin(12)
sd_out_pin = Pin(45)

# sd引脚要设置为sd_out_pin
# 这里要注意用I2S.TX

audio_i2s = I2S(0, sck=sck_pin, ws=ws_pin, sd=sd_out_pin, 
               mode=I2S.TX,     # only TX mode available
               bits=16,         # 数据宽度16bit，2字节
               format=I2S.MONO, # 单通道MONO, 双通道STEREO
               rate=16000,      # 采样率16000Hz
               ibuf=2048        # 缓冲区大小1024字节
)
print("I2S init complete!")

# 等待I2S初始化完成
#time.sleep_ms(500)
# 读取音频文件
print("playing...")
counter = 0
with open("./audio.pcm", "rb") as f:
    while True:
        buffer = f.read(1024)
        if buffer:
            print("counter: ", counter)
            counter+=1
            audio_i2s.write(buffer)
        else:
            break

audio_i2s.deinit()
print("play complete...")

WAV音频

WAV 文件的前 44 个字节是文件头部分，包含了音频文件的元数据（如采样率、位宽、声道数等）。WAV 文件头遵循 RIFF 格式规范，以下是其详细结构：

WAV 文件头结构（44 字节）

偏移量	字段名称	大小（字节）	描述
0	Chunk ID	4	固定为 `"RIFF"` ，表示文件是一个 RIFF 格式的文件。
4	Chunk Size	4	文件总大小减去 8 字节（即文件大小 - 8）。
8	Format	4	固定为 `"WAVE"` ，表示这是一个 WAV 文件。
12	Subchunk1 ID	4	固定为 `"fmt "` ，表示接下来的部分是格式信息。
16	Subchunk1 Size	4	格式信息的大小（通常是 16 字节）。
20	Audio Format	2	音频格式（PCM 为 1，表示未压缩）。
22	Num Channels	2	声道数（1 表示单声道，2 表示立体声）。
24	Sample Rate	4	采样率（如 44100 Hz）。
28	Byte Rate	4	每秒的字节数（`Sample Rate * Num Channels * BitsPerSample / 8` ）。
32	Block Align	2	每个采样点的字节数（`Num Channels * BitsPerSample / 8` ）。
34	Bits Per Sample	2	每个采样点的位数（如 16 位）。
36	Subchunk2 ID	4	固定为 `"data"` ，表示接下来的部分是音频数据。
40	Subchunk2 Size	4	音频数据的大小（字节数）。
44	Data	N	音频数据（从第 44 字节开始）。

解析wav格式数据

struct.unpack 是 Python 中用于将二进制数据解析为 Python 数据类型的函数。它通常用于处理二进制文件、网络协议数据或硬件设备的原始数据。struct.unpack 是 struct.pack 的逆操作，后者用于将 Python 数据类型打包为二进制数据。

`struct.unpack` 的基本用法

struct.unpack(fmt, buffer)

fmt：格式化字符串，指定如何解析二进制数据。
buffer：包含二进制数据的字节对象（如 bytes 或 bytearray）。
返回值: 返回一个元组，包含解析后的数据。

格式化字符串 (`fmt`)

格式化字符串由以下部分组成：

字节顺序（可选）：

- @：本地字节顺序（默认）。
- =：本地字节顺序，忽略对齐。
- <：小端序（低位字节在前）。
- >：大端序（高位字节在前）。
- !：网络字节顺序（大端序）。

数据类型：

- c：字符（1 字节）。
- b：有符号字节（1 字节）。
- B：无符号字节（1 字节）。
- ?：布尔值（1 字节）。
- h：有符号短整型（2 字节）。
- H：无符号短整型（2 字节）。
- i：有符号整型（4 字节）。
- I：无符号整型（4 字节）。
- l：有符号长整型（4 字节）。
- L：无符号长整型（4 字节）。
- q：有符号长长整型（8 字节）。
- Q：无符号长长整型（8 字节）。
- f：浮点型（4 字节）。
- d：双精度浮点型（8 字节）。
- s：字符串（需要指定长度，如 10s 表示 10 字节的字符串）。
- p：Pascal 字符串（1 字节长度 + 字符串）。
- x：填充字节（跳过 1 字节）。

示例 1：解析单个值

import struct

# 二进制数据（4 字节的无符号整型）
buffer = b'\x01\x00\x00\x00'

# 解析为无符号整型
value = struct.unpack('

 
  示例 2：解析多个值 
  import struct

# 二进制数据（2 个有符号短整型）
buffer = b'\x01\x00\x02\x00'

# 解析为 2 个有符号短整型
values = struct.unpack('<2h', buffer)
print(values)  # 输出: (1, 2) 
  示例 3：解析混合类型 
  import struct

# 二进制数据（1 个无符号短整型 + 1 个浮点型）
buffer = b'\x01\x00\x00\x00\x00\x00\x80\x3f'

# 解析为无符号短整型和浮点型
values = struct.unpack('
 
  示例 4：解析字符串 
  import struct

# 二进制数据（10 字节的字符串）
buffer = b'hello\x00\x00\x00\x00\x00'

# 解析为 10 字节的字符串
value = struct.unpack('<10s', buffer)
print(value)  # 输出: (b'hello\x00\x00\x00\x00\x00',) 
  示例 5：解析 WAV 文件头 
  import struct

# 假设这是 WAV 文件的前 44 字节
wav_header = b'RIFF\x24\x00\x00\x00WAVEfmt \x10\x00\x00\x00\x01\x00\x02\x00\x44\xAC\x00\x00\x10\xB1\x02\x00\x04\x00\x10\x00data\x00\x00\x00\x00'

# 解析 WAV 文件头
chunk_id = struct.unpack('<4s', wav_header[0:4])[0]
chunk_size = struct.unpack('
 
   
  注意事项 
   
   字节顺序： 
   
   
    
     
     确保格式化字符串中的字节顺序与数据的实际存储顺序一致。 
     小端序（<）和大端序（>）是最常用的两种字节顺序。 
    
  
   
   
   数据对齐： 
   
   
    
     
     某些平台可能要求数据对齐，可以使用 @ 或 = 来指定本地字节顺序。 
    
  
   
   
   缓冲区大小： 
   
   
    
     
     确保缓冲区的大小与格式化字符串的要求一致，否则会抛出 struct.error。 
    
  
   
   
   返回值： 
   
   
    
     
     struct.unpack 始终返回一个元组，即使只解析一个值。 
    
  
   
   
  总结 
   
   struct.unpack 是 Python 中处理二进制数据的强大工具。 
   通过格式化字符串，可以灵活地解析各种数据类型。 
   在处理文件、网络协议或硬件数据时，struct.unpack 非常有用。 
   
   
  实操演练 
  from machine import I2S, Pin
import struct

# 配置I2S
i2s = I2S(
    0,  # I2S编号
    sck=Pin(14),  # 时钟引脚
    ws=Pin(13),   # 字选择引脚
    sd=Pin(45),   # 数据引脚
    mode=I2S.TX,  # 发送模式
    bits=16,      # 数据位宽
    format=I2S.MONO,  # 单声道
    rate=16000,   # 采样率
    ibuf=40000    # 输入缓冲区大小
)

# 解析WAV文件头
def parse_wav_header(file):
    header = file.read(44)  # WAV文件头长度为44字节
    if header[0:4] != b'RIFF' or header[8:12] != b'WAVE':
        raise ValueError("不是有效的WAV文件")
    ret = struct.unpack("4s",header[0:4])
    print("ret=",ret,header[0:4].decode())
    # 提取采样率、位宽、声道数等信息
    sample_rate = struct.unpack('
 
   
  保存wav格式数据 
  from machine import I2S, Pin
import struct

# 配置I2S
i2s = I2S(
    0,  # I2S编号
    sck=Pin(14),  # 时钟引脚
    ws=Pin(13),   # 字选择引脚
    sd=Pin(12),   # 数据引脚
    mode=I2S.RX,  # 接收模式
    bits=16,      # 数据位宽
    format=I2S.MONO,  # 单声道
    rate=16000,   # 采样率
    ibuf=40000    # 输入缓冲区大小
)

# WAV文件参数
sample_rate = 16000  # 采样率
bits_per_sample = 16  # 位宽
num_channels = 1  # 单声道
duration = 5  # 录制时长（秒）
buffer_size = 1024  # 每次读取的缓冲区大小

# 计算总数据量
total_samples = sample_rate * duration
total_data_size = total_samples * num_channels * (bits_per_sample // 8)

# 创建WAV文件头
def create_wav_header(sample_rate, bits_per_sample, num_channels, data_size):
    # WAV文件头格式
    header = bytearray()
    header.extend(b'RIFF')  # Chunk ID
    header.extend(struct.pack('
 
  结语 
  通过本文的学习，我们掌握了I2S音频接口在ESP32-S3平台上的完整开发流程，从基础协议理解到实际的音频采集与播放实现。I2S技术为嵌入式系统带来了专业级的音频处理能力，为智能家居、可穿戴设备、工业控制等领域的音频应用开发提供了强大支持。希望本指南能成为您音频开发路上的实用参考，期待看到您利用这些技术创造出更多创新的音频应用。技术的价值在于实践，愿您在嵌入式音频开发的道路上不断探索，创造出更多令人惊艳的作品！

构建跨平台远程医疗系统中的视频通路技术方案探究音视频牛哥 RTMP播放器 RTSP播放器大牛直播SDK 音视频远程医疗国产系统rtmp 国产系统rtsp 信创rtsp播放器信创rtmp播放器大牛直播SDK
一、远程医疗走向日常化，音视频能力成为关键基础设施随着医疗数字化与分级诊疗体系的不断演进，远程医疗正从试点探索阶段，逐步迈向常态化、标准化应用。从县域医院远程问诊、基层医疗协作，到大型三甲医院的术中协同、专科教学直播，再到跨机构的医疗资源共享和辅助诊断，音视频能力已成为整个远程医疗系统中的核心支撑与底层基座。然而，医疗行业对音视频系统的要求远远高于普通办公或娱乐场景。实时性不仅关乎沟通效率，更直接
音视频面试题集锦第 1 期关键帧-Keyframe 音视频面试题集锦音视频面试
想要学习和提升音视频技术的朋友，快来加入我们的【音视频技术社群】，加入后你就能：1）下载30+个开箱即用的「音视频及渲染Demo源代码」2）下载包含500+知识条目的完整版「音视频知识图谱」3）下载包含200+题目的完整版「音视频面试题集锦」4）技术和职业发展咨询100%得到回答5）获得简历优化建议和大厂内推现在加入，送你一张20元优惠券：点击领取优惠券前些时间，我在知识星球上创建了一个音视频技术
音视频面试题集锦第 7 期
音视频面试题集锦第7期：1、简要介绍一下对H.264的了解？2、H.264编码框架分层目的是什么？3、H.264如何根据NALU判断当前视频帧的类型？4、介绍一下I、P、B帧编码、解码、显示顺序？5、H.264与H.265有什么区别？图文完整版请阅读：https://gjzkeyframe.github.io/posts/av-interview-qa-7/1、简要介绍一下对H.264的了解？1）
音视频流媒体开发【七十四】- WebRTC1-WebRTC入门 AlanGe
音视频流媒体开发-目录iOS知识点-目录Android-目录Flutter-目录数据结构与算法-目录uni-pp-目录1WebRTC入门1.1什么是WebRTCWebRTC（WebRealTimeCommunication）是Google于2010以6829万美元从GlobalIPSolutions公司购买，并于2011年将其开源，旨在建立一个互联网浏览器间的实时通信的平台，让WebRTC技术成为
音视频流媒体开发【七十二】- RTSP流媒体7-SDP协议分析 AlanGe
音视频流媒体开发-目录iOS知识点-目录Android-目录Flutter-目录数据结构与算法-目录uni-pp-目录SDP（SessionDescriptionProtocol）完全是⼀种会话描述格式―它不属于传输协议―它只使⽤不同的适当的传输协议，包括会话通知协议（SAP）、会话初始协议（SIP）、实时流协议（RTSP）、MIME扩展协议的电⼦邮件以及超⽂本传输协议（HTTP）。SDP协议是也
2021.9.15工作总结逗逗奶
一今日总结1.校区会议30min2.抖音视频整理剪辑30min3.两节助教课工作4h周三17:30-19:00新概念周三19:00-20:30新概念4.与周六晚上上课家长沟通假期调课事宜1.5h周一5:30-7:00周六5:30上课已经沟通完，顾家琪待定，回老家可能上不了周一7:00-8:30新概念，9人2人晚上回家暂时不合适兰佳睿，张瑞晨不合适周二5:30-7:00九人两人晚上回家暂时王增祥鹤，
音视频流媒体开发【二十六】ffplay播放器-音频输出和音频重采样 AlanGe
音视频流媒体开发-目录7⾳频输出模块ffplay的⾳频输出通过SDL实现。⾳频输出的主要流程：打开SDL⾳频设备，设置参数启动SDL⾳频设备播放SDL⾳频回调函数读取数据，这个时候我们就要从FrameQueue读取frame填充回调函数提供的buffer空间。audio的输出在SDL下是被动的，即在开启SDL⾳频后，当SDL需要数据输出时则通过回调函数的⽅式告诉应⽤者需要传⼊多少数据，但这⾥存在⼀
「前端实时音视频系列」WebRTC入门概览音视频开发老马 Android音视频开发音视频开发流媒体服务器前端实时音视频 webrtc 视频编解码音视频
在前端领域，WebRTC是一个相对小众的技术；但对于在线教育而言，却又是非常的核心。网上关于WebRTC的文章很多，本文将尝试以WebRTC工作过程为脉络进行介绍，让读者对这门技术有一个完整的概念。WebRTC（WebReal-TimeCommunications）是由谷歌开源并推进纳入W3C标准的一项音视频技术，旨在通过点对点的方式，在不借助中间媒介的情况下，实现浏览器之间的实时音视频通信。与W
音视频流媒体开发【二十七】ffplay播放器-视频输出和尺寸变换 AlanGe
音视频流媒体开发-目录9视频输出模块ffplay为了适应不同的平台，选择了SDL（跨平台）作为显示的SDK，以便在windows、linux、macos等不同平台上实现视频画⾯的显示。视频（图像）输出初始化视频（图像）输出逻辑问题：*当窗⼝改变⼤⼩时由谁对原始数据（解码后的数据）进⾏缩放当随意改变窗⼝的⼤⼩，为什么视频的宽⾼⽐例还能保持正常9.1视频输出初始化9.1.1视频输出初始化主要流程我们开
AWS WebRTC：我们的业务模式
拉流、卡录基本流程设备端（摄像机）与App端是通过AWSKVSWebRTC信令服务进行“点对点连接”的，真正的媒体数据（音视频）是通过WebRTC的ICE通道（P2P或TURN）直接传输的，而不是经过KVS中转。[Viewer][AWSSignalingService][Master]↘↙↘-------ICE/STUN--------↙(P2PorTURN)↔↔↔↔↔视频/音频数据传输↔↔↔↔↔
ffmpeg音视频处理大纲 SY.ZHOU 音视频 ffmpeg 音视频
FFmpeg是一个功能强大的开源音视频处理工具集，其核心代码以C语言实现。下面从源码角度分析FFmpeg如何实现转码、压缩、提取、截取、拼接、合并和录屏等功能：一、FFmpeg核心架构与数据结构FFmpeg的源码结构围绕以下核心组件展开：libavformat：输入/输出格式处理（如MP4、MKV、RTSP等）libavcodec：编解码库（如H.264、AAC、VP9等）libavutil：工具
抖音发视频赚钱的方法教程，分享利用剪辑视频在抖音变现的攻略日常购物技巧呀
对于对于用户来说可以通过剪辑抖音视频来赚钱，这是常见的一种赚钱方式。那么做抖音视频剪辑具体如何去赚钱呢?为了解决大家的问题，下面脚本之家小编就和大家说说这方面的内容，希望对大家有帮助。既然有了好的内容变现这个问题就非常简单了，下面给大家整理几个变现模式。1，加入中视频计划，有了播放量就有收益，因为模式比较新颖，检查每天制作视频，累计下来会有一笔不菲的收益。2，粉丝量做到一定程度的时候，可以把账号卖
Python ffmpeg视频处理程序媛一枚~ 视频处理 Python OpenCV ffmpeg python 音视频
2.源码#coding=utf-8importffmpegimportgetpassimportsubprocessimportmatplotlib.pyplotaspltimportcv2importnumpyasnpimportos#ffmpeg相关的音视频操作指令函数#程序列表：'''comband_av音频视频合并comband_aa音频合并pick_v视频静音acceler
ffmpeg-python 实战教程：从视频处理到流媒体应用洪赫逊
ffmpeg-python实战教程：从视频处理到流媒体应用ffmpeg-python是一个基于FFmpeg的Python绑定库，它提供了简洁的API来处理音视频文件。本文将介绍该库的几种典型应用场景，帮助开发者快速掌握音视频处理的核心技术。基础视频信息获取使用ffprobe可以轻松获取视频文件的元数据信息，这是视频处理的第一步：probe=ffmpeg.probe('input.mp4')vide
线上街机推币机App架构设计 11年老程序员在线搬砖游戏游戏机 app开发推币机开发线上推币机
线上街机推币机App架构设计与商业化实践：技术驱动下的复古娱乐新生态**——从物理引擎到合规边界的全链路产品解决方案**>当3D物理引擎碰撞实时音视频传输，街机推币机正以数字化形态掀起休闲娱乐新浪潮。据行业数据，2024年头部推币App单日流水峰值突破**120万元**，（191零381幺⑥⑦②）用户平均停留时长**23分钟**，远超普通休闲游戏。本文将深入解析其技术架构、运营模型与法律红线
Kamailio 5.8.3与rtpengine双网卡SBC集成要点
本文档总结了将Kamailio5.8.3与rtpengine（配置为双网卡模式）集成以实现SIP+RTP媒体流转发（包括音视频和RTCP）的关键配置要点和最佳实践。用户场景包括：无NAT、公私网双向呼叫、通过dispatcher模块对公私网两侧的多网关进行负载均衡。1.Kamailiortpengine模块核心配置与使用1.1.模块加载与参数loadmodule"rtpengine.so"modp
抖音客服系统-企业号员工号矩阵私信评论统一接待 adminwolf 个人开发
抖音授权接入基于抖音开放平台官方接口，抖音矩阵企业员工号评论私信统一接待，授权接入有两种方式：登录注册页面，直接抖音扫码登入后台前往【菜单】【团队设置】【抖音接入】【扫码授权】，这个地方可以在一个客服账号下绑定多个抖音，方便统一管理和回复扫描抖音的授权码，可以将当前客服账号与抖音账号进行绑定普通个人号授权:抖音视频有评论时，会把评论内容推送给客服系统。我们可以设置关键词自动回复，或者GPT的AI回
【音视频学习】三、FFmpeg音频编码过程详解知无涯啊音视频学习 ffmpeg
文章目录前言1、FFmpeg编解码器的编码流程概述2、FFmpeg编码函数详解2.1constAVCodec*codec=avcodec_find_encoder(AV_CODEC_ID_MP2)2.2AVCodecContext*c=avcodec_alloc_context3(codec);2.3给编码器上下文设置参数2.4avcodec_open2(c,codec,NULL)2.5pkt=a
【音视频学习】五、深入解析视频技术中的像素格式：颜色空间、位深度、存储布局知无涯啊音视频学习
文章目录引言1.像素格式基础1.1定义1.2核心要素1.3为什么需要多种像素格式？2.RGB家族：直观但低效2.1常见RGB格式2.2局限性3.YUV家族：视频编码的基石3.1色度下采样对比4.YUV的三种存储方式4.1方式一：平面格式（PlanarYUV420P）4.2方式二：半平面格式（Semi-PlanarYUV420SP）4.3方式三：打包格式（PackedYUV）4.3三种存储方式对比5
音视频基础知识-YUV数据分析 Mr数据杨 Python 视频剪辑 Moivepy python 视频处理
音视频编码技术作为现代通信和媒体领域的核心，扮演着不可或缺的角色。它不仅使数字媒体内容的存储和传输成为可能，而且极大地提高了数据处理的效率。在这个数字化迅速发展的时代，音视频编码的重要性愈发凸显。特别是在流媒体、视频会议、远程教育等领域，高效且可靠的音视频编码是提供无缝和高质量体验的关键。YUV格式，作为音视频编码中的一种关键技术，对于处理和传输高质量视频内容至关重要。与传统的RGB格式相比，YU
Qt/C++音视频开发05-保存视频文件（yuv/h264/mp4） feiyangqingyun Qt/C++音视频开发 qt ffmpeg Qt视频监控
一、前言和音频存储类似，视频的存储也对应三种格式，视频最原始的数据是yuv（音频对应pcm），视频压缩后的数据是h264（音频对应aac），由于很多播放器或者早期的播放器不支持直接播放h264文件，所以需要用编码器编码成mp4格式，这块就需要用到ffmpeg里面一整套的编码流程，对yuv数据进行编码成MP4格式存储。在经过对各种视频文件或者视频流保存的过程中，发现rtsp这类的视频流可以直接编码打
【音视频学习】四、深入解析视频技术中的YUV数据存储方式：从原理到实践
文章目录引言1.YUV基础：为什么它比RGB更适合视频？1.1YUV与RGB的核心区别1.2YUV色度下采样简介2.YUV的三大存储方式方式一：平面格式（Planar）方式二：半平面格式（Semi-Planar）方式三：打包格式（PackedYUV）三种存储方式对比：3.如何选择合适的YUV格式？4.总结引言在数字视频的世界里，YUV是一种比RGB更高效的颜色表示方法，尤其在视频编码、传输和存储中
音视频流媒体开发【五十七】HLS流媒体9-TS协议补充 AlanGe
音视频流媒体开发-目录iOS知识点-目录Android-目录Flutter-目录数据结构与算法-目录uni-pp-目录1.TS1.1TS流与其他流的关系ES(ElementaryStream)：基本码流，不分段的⾳频、视频或其他信息的连续码流。PES(PacketizedElementaryStream)：分组的基本码流，将基本码流ES流根据需要分成⻓度不等的数据包，并加上包头就形成了打包的基本码
抖音好物带货好物分享好物推荐怎么做高省APP大九
相信大家肯定经常玩抖音，在抖音视频里面，其实很多都是分享产品的，消费者看到后如果购买了，分享者是可以获得佣金的，而这个就是好物推荐，那么，好物推荐的商品是从哪里来的呢?好物分享优选渠道：高省，海量优惠券，佣金最高的第三方APP。大家好，我是高省APP最大团队导师蓓蓓，高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
音视频面试题集锦第 2 期
想要学习和提升音视频技术的朋友，快来加入我们的【音视频技术社群】，加入后你就能：1）下载30+个开箱即用的「音视频及渲染Demo源代码」2）下载包含500+知识条目的完整版「音视频知识图谱」3）下载包含200+题目的完整版「音视频面试题集锦」4）技术和职业发展咨询100%得到回答5）获得简历优化建议和大厂内推现在加入，送你一张20元优惠券：点击领取优惠券前些时间，我在知识星球上创建了一个音视频技术
音视频流媒体开发【六十五】RTMP/HLS/HTTP-FLV流媒体服务器分8-SRS流媒体框架-HLS⽂件配置和测试 AlanGe
HLS原理简介RTMP指Adobe的RTMP(RealtimeMessageProtocol)，⼴泛应⽤于低延时直播，也是编码器和服务器对接的实际标准协议，在PC（Flash）上有最佳观看体验和最佳稳定性。HLS指Apple的HLS(HttpLiveStreaming)，本身就是Live（直播）的，不过Vod（点播）也能⽀持。HLS是Apple平台的标准流媒体协议，和RTMP在PC上⼀样⽀持得天⾐
音视频流媒体开发【二十九】ffplay播放器-音视频同步 AlanGe
音视频流媒体开发-目录12以⾳频为基准⾳频主流程ffplay默认也是采⽤的这种同步策略。此时⾳频的时钟设置在sdl_audio_callback：audio_callback_time=av_gettime_relative();................../*Let'sassumetheaudiodriverthatisusedbySDLhastwoperiods.*/if(!isnan
视频直播源码在Android端实现1对1音视频实时通话程序员老舅音视频开发进阶音视频 android studio 视频编解码 webrtc 实时音视频
我们要使用WebRTC进行音视频互动时需要申请访问硬件的权限，至少要申请以下三种权限Camera权限RecordAudio权限Intenet权限在Android中，申请权限分为静态权限申请和动态权限申请，这对于做Android开发的同学来说已经是习以为常的事情了。下面我们就看一下具体如何申请权限：静态权限申请在Android项目中的AndroidManifest.xml中增加以下代码:视频直播源码
Android音视频探索之旅 | C++层使用OpenGL ES实现音频渲染慢行的骑兵音视频 android 音视频 NDK
一.前言OpenGLES实现视频渲染已经实现-在Android音视频探索之旅|C++层使用OpenGLES实现视频渲染中，这一次我们使用OpenGLES实现音频渲染。二.通过OpenSLES播放音频2.1.整体流程1.创建OpenSL引擎2.创建混音器3.创建播放器4.执行播音操作（OpenSLES的播音过程比较特别，不像视频那样每放完一帧就主动休眠，而是每帧音频播放结束会自己回调，在回调的时候才
WebRTC_iOS: 革新的 iOS 实时音视频通信解决方案潘俭渝Erik
WebRTC_iOS:革新的iOS实时音视频通信解决方案去发现同类优质开源项目:https://gitcode.com/1、项目介绍在当今的移动应用世界中，实时通信能力已经成为许多应用程序的核心竞争力。WebRTC_iOS是一个专为iOS设备设计的开源项目，它利用了Google的WebRTC技术，为您提供了一套完整的音视频通信框架。这个项目的目标是简化开发者在iOS应用中集成高质量、低延迟的音视频
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，

ESP32-S3 I2S音频开发实战指南

前言

I2S简介

TDM 通信模式(标准)

PDM 通信模式

. 对比总结

为什么要学习I2S

PCM原始数据

I2S录制声音

I2S播放声音

WAV音频

WAV 文件头结构（44 字节）

解析wav格式数据

struct.unpack 的基本用法

格式化字符串 (fmt)

示例 1：解析单个值

示例 2：解析多个值

示例 3：解析混合类型

示例 4：解析字符串

示例 5：解析 WAV 文件头

注意事项

总结

实操演练

保存wav格式数据

结语

你可能感兴趣的:(音视频)

`struct.unpack` 的基本用法

格式化字符串 (`fmt`)