Apache Avro — スキーマ進化 & シリアライゼーション

Avroはファイル内にJSONスキーマを埋め込む行ベースのデータシリアライゼーションフォーマットです。スキーマ進化に優れ、リーダーとライターが異なるが互換性のあるスキーマを持つことができます。AvroはKafkaメッセージのシリアライゼーションとHadoopデータパイプラインの標準です。

MIMEタイプ

application/avro

種類

バイナリ

圧縮

無劣化

メリット

Kafkaメッセージスキーマ、Hadoop/Sparkデータパイプライン、スキーマ進化とコンパクトな行ストレージが優先されるシステムにAvroを使用してください。

AvroファイルにはJSONスキーマヘッダーの後にDEFLATEまたはSnappyで圧縮されたバイナリエンコードデータブロックが含まれます。読み取り時のスキーマ解決により、コンシューマを壊すことなくフィールドの追加、削除、名前変更が可能です。

Doug Cuttingは2009年にHadoopエコシステムの一部としてAvroを作成しました。ThriftやProtocol Buffersとは異なり、Avroはコード生成なしの動的スキーマ解決のために設計されました。