信息复制
- With Kafka you will need to manage the offsets of the messages by yourself, using an external storage, such as, Apache Zookeeper. In that way you can track the messages read so far by the Consumers. Pubsub works using acknowledging the message, if your code doesn't acknowledge the message before the deadline, the message is sent again, that way you can avoid duplicated messages or another way to avoid is using Cloud Dataflow PubsubIO.
保留政策 卡夫卡和 Pubsub 都有配置最长保留时间的选项,默认情况下,我认为是7天。
消费者群体 vs 订阅 小心阅读两个系统中的消息。发布服务器使用订阅,则创建订阅,然后开始从该订阅读取消息。一旦读取并确认消息,该订阅的消息就消失了。卡夫卡使用了“消费者组”和“分区”的概念,每个消费者进程都属于一个组,当从一个特定的分区读取消息时,属于同一个“消费者组”的任何其他消费者进程都不能读取该消息(这是因为偏移量最终会增加)。您可以将偏移量看作一个指针,它告诉进程必须读取哪些消息。