kafka: 生产者

分区的作用就是提供负载均衡的能力

分区策略是决定生产者将消息发送到哪个分区的算法

显式地配置生产者端的参数partitioner.class
实现org.apache.kafka.clients.producer.Partitioner接口
int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster);

轮询策略有非常优秀的负载均衡表现，它总是能保证消息最大限度地被平均分配到所有分区上，故默认情况下它是最合理的分区策略，也是我们最常用的分区策略之一。

如果追求数据的均匀分布，还是使用轮询策略比较好。 事实上，随机策略是老版本生产者使用的分区策略，在新版本中已经改为轮询了。

Kafka 允许为每条消息定义消息键，简称为 Key。

一旦消息被定义了 Key，那么你就可以保证同一个 Key 的所有消息都进入到相同的分区里面，由于每个分区下的消息处理都是有顺序的，故这个策略被称为按消息键保序策略。

Kafka 默认分区策略实际上同时实现了两种策略：如果指定了 Key，那么默认实现按消息键保序策略；如果没有指定 Key，则使用轮询策略。

还有一种比较常见的，即所谓的基于地理位置的分区策略。当然这种策略一般只针对那些大规模的 Kafka 集群，特别是跨城市、跨国家甚至是跨大洲的集群。

Kafka 的消息层次都分为两层：消息集合（message set） 以及 消息（message）。一个消息集合中包含若干条日志项（record item），而日志项才是真正封装消息的地方。

Producer 端压缩、Broker 端保持、Consumer 端解压缩。

压缩可能发生在两个地方：生产者端和 Broker 端。

生产者程序中配置 compression.type 参数即表示启用指定类型的压缩算法

Borker 压缩的情况：

Broker 端指定了和 Producer 端不同的压缩算法
- Broker 指定压缩算法且与 Producer 不一致（不指定默认使用 Producer 的压缩算法）
- broker 先解压后使用自己的压缩算法进行压缩
Broker 端发生了消息格式转换
- 消息格式转换主要是为了兼容老版本的消费者程序（V1 和 V2 的转换）
- 这种消息格式转换对性能是有很大影响的，除了这里的压缩之外，它还让 Kafka 丧失了引以为豪的 Zero Copy 特性。

目录