概述
Protocol buffers 提供了一种语言中立、平台中立、可扩展的机制,用于以向前兼容和向后兼容的方式序列化结构化数据。 它类似于 JSON,只是它更小更快,并且可以按指定语言生成。
Protocol buffers 解决了什么问题?
Protocol buffers 为大小高达几兆字节的类型化结构化数据包提供了一种序列化格式。 该格式适用于临时网络流量和长期数据存储。 可以使用新信息扩展 protocol buffers,而无需使现有数据无效或需要更新代码。
Protocol buffers 是 Google 最常用的数据格式。 它们广泛用于服务器间通信以及磁盘上数据的归档存储。 Protocol buffer message 和 service 由工程师编写的 .proto 文件描述。
proto 编译器在 .proto 文件的构建时被调用,以生成各种编程语言的代码(在本主题后面的跨语言兼容性中介绍)来操作相应的 protocol buffer。 每个生成的类都包含:每个字段的简单访问器、用于序列化和解析整个结构与原始数据之间关系的方法。
由于 protocol buffer 在 Google 的各种服务中广泛使用,并且其中的数据可能会保留一段时间,因此保持向后兼容性至关重要。 protocol buffer 支持更改,包括添加新字段和删除现有字段,而不会破坏现有服务。
使用 Protocol buffer 有哪些好处?
最常用于定义通信协议(与 gRPC 一起)和数据存储。
使用 protocol buffer 的一些优点包括:
- 数据压缩存储
- 快速解析
- 支持多种编程语言
- 通过自动生成的类优化功能
跨语言兼容性
可以通过编写任何支持的编程语言,来读取相同的消息。
例如, 可以让一个平台上的 Java 程序,根据 .proto 定义对数据进行序列化,然后在另一个平台上运行的单独 Python 应用程序,从序列化数据中提取特定值。
跨项目支持
可以使用特定项目代码库之外的 .proto 文件中定义消息类型,来跨项目使用 protocol buffer。
在不更新代码的情况下更新 Proto 定义
软件产品向后兼容是标准,但向前兼容却不太常见。 只要您在更新 .proto 定义时遵循一些简单的做法,旧代码将毫无问题地读取新消息,而忽略任何新添加的字段。 对于旧代码,删除的字段将具有默认值,删除的重复字段将为空。
新代码也将透明地读取旧消息。 旧消息中不会出现新字段; 在这些情况下, protocol buffer 提供了一个合理的默认值。
什么时候 protocol buffer 不适用?
Protocol buffer 并不是适用于所有数据,尤其是:
protocol buffer 倾向于 假设整个消息可以一次加载到内存中,并且不大于一个 object graph。 对于超过几兆字节的数据,考虑不同的解决方案; 在处理较大的数据时,由于序列化副本,您可能会有效地获得多个数据副本,这可能会导致内存使用量出现惊人的峰值。
当 protocol buffer 被序列化时,相同的数据可以有许多不同的二进制序列化。 如果不完全解析它们,就无法比较两条消息的相等性。
消息未压缩。 虽然消息可以像任何其他文件一样被压缩,但专用压缩算法(如 JPEG 和 PNG 使用的压缩算法)将为适当类型的数据生成小得多的文件。
对于涉及大型多维浮点数数组的许多科学和工程用途,protocol buffer 消息在大小和速度方面都没有达到最大效率。 对于这些应用程序,FITS 和类似格式的开销较小。
Protocol buffer 在科学计算中流行的非面向对象语言(例如 Fortran 和 IDL)中没有得到很好的支持。
Protocol buffer 消息本身并不自我描述其数据,但它们具有完全反射的模式,您可以使用它来实现自我描述。 也就是说,如果不访问其相应的 .proto 文件,您将无法完全解释它。
Protocol buffer 不是任何组织的正式标准。 这使得它们不适合在具有法律或其他要求以建立在标准之上的环境中使用。
Protocol buffer 是如何工作的?
- protocol buffer 工作流程
protocol buffer 生成的代码,提供了从文件和流中检索数据、从数据中提取单个值、检查数据是否存在、将数据序列化回文件或流、以及其他有用功能的实用方法。
Protocol buffer 定义语法
定义 .proto
文件时,您可以指定字段是 optional
或 repeated
(proto2 和 proto3)或 singular
(proto3)。 (将字段设置为 required 选项在 proto3 中不存在,并且在 proto2 中强烈建议不要使用)
设置字段的 可选性/可重复性 后,指定数据类型。Protocol buffer 支持通常的原始数据类型,例如 integers、booleans、floats。
一个字段也可以是:
- message 类型,以便您可以嵌套部分定义,例如用于重复数据集。
- enum 类型,因此您可以指定一组值以供选择。
- oneof 类型,当消息有多个可选字段且最多同时设置一个字段时,可以使用该类型。
- map 类型,用于将键值对添加到您的定义中。
在设置 可选性 和 字段类型 后,分配一个字段编号。 字段编号不能改变用途或重复使用。 如果您删除一个字段,您应该保留其字段编号,以防止有人意外重复使用该编号。
额外支持的数据类型
Protocol buffer 支持许多标量值类型,包括使用可变长度编码和固定大小的整数。 您还可以通过定义消息来创建自己的复合数据类型,这些消息本身就是可以分配给字段的数据类型。 除了简单和复合值类型之外,还发布了几种常见类型。
常见类型
- Duration
Duration 是有符号的、固定长度的时间跨度,例如 42s。 - Timestamp
Timestamp 是独立于任何时区或日历的时间点,例如 2017-01-15T01:30:15.01Z。 - Interval
Interval 是独立于时区或日历的时间间隔,例如 2017-01-15T01:30:15.01Z - 2017-01-16T02:30:15.01Z。 - Date
Date 是一个完整的日历日期,例如 2025-09-19。 - DayOfWeek
DayOfWeek 是一周中的某一天,例如 Monday。 - TimeOfDay
TimeOfDay 是一天中的某个时间,例如 10:42:23。 - LatLng
LatLng 是一个纬度/经度对,例如 37.386051 纬度和 -122.083855 经度。 - Money
money 是具有货币类型的货币数量,例如 42 USD。 - PostalAddress
PostalAddress 是邮政地址,例如 1600 Amphitheatre Parkway Mountain View, CA 94043 USA。 - Color
Color 是 RGBA 颜色空间中的一种颜色。 - Month
Month 是一年中的一个月,例如 April。