Kafka Schema介绍

Avro概述

简介

Apache Avro(以下简称 Avro,读音:阿夫罗)是一个数据序列化系统,是一种与编程语言无关的序列化格式,是提供一种共享数据文件的方式。Avro是Hadoop中的一个子项目,Avro是一个基于二进制数据传输高性能的中间件。Avro可以做到将数据进行序列化,适用于远程或本地大批量数据交互。在传输的过程中Avro对数据二进制序列化后节约数据存储空间和网络传输带宽。

序列化就是将对象转换成二进制流,相应的反序列化就是将二进制流再转换成对应的对象。因此,Avro就是用来在传输数据之前,将对象转换成二进制流,然后此二进制流达到目标地址后,Avro再将二进制流转换成对象。

特点

  1. 丰富的数据结构

  2. 一个紧凑的,快速的,二进制的数据格式

  3. 一个容器文件,来存储持久化数据

  4. 远程过程调用(RPC)

  5. 简单的动态语言集成。

  6. Avro模式是使用JSON定义的 。这有助于以已经具有JSON库的语言实现。

JSON是一种轻量级的数据传输格式,对于大数据集,JSON数据会显示力不从心ÿ

你可能感兴趣的:(大数据企业级实战,大数据从入门到精通,kafka,Schema)