Apache Beam KinesisIO Java - 在运动流中使用数据离开的地方答案

作者: 分类: 编程代码时间:1970-01-01

Apache Beam KinesisIO Java - Consume the data in a kinesis stream from where it leftApache Beam KinesisIO Java - 在运动流中使用数据离开的地方

首先我想说的是，这对 Beam 世界来说是全新的。我正在处理一项以 Apache Beam 为重点的任务，我的主要数据源是 Kinesis 流。在那里，当我使用流数据时，我注意到当我重新启动程序（我的消费者应用程序）时会出现相同的数据集。这是我的代码，

    String awsStreamName = KinesisStream.getProperty("stream.name");
    String awsAccessKey = KinesisStream.getProperty("access.key");
    String awsSecretKey = KinesisStream.getProperty("secret.key");
    String awsRegion = KinesisStream.getProperty("aws.region");
    Regions region = Regions.fromName(awsRegion);

    return KinesisIO.read()
            .withStreamName(awsStreamName)
            .withInitialPositionInStream(InitialPositionInStream.LATEST)
            .withAWSClientsProvider(awsAccessKey, awsSecretKey, region);

我想要的只是，我需要从我离开的地方开始读取数据。如果有人也可以提供一些资源，我将不胜感激。

我也发现了一个类似的问题，但对我没有帮助 - Apache Beam KinesisIO Java processing pipeline - application state, error handling & fault-tolerance?

【问题讨论】：

标签： java apache-beam amazon-kinesis apache-beam-io

【解决方案1】：

Beam 中的UnboundedSources 例如KinesisIO.read() 支持使用CheckpointMarks 进行检查点，以便在重新启动应用程序后从最新的检查点恢复。

这些检查点必须持久化到持久存储中。但是，具体如何完成取决于您使用的 Beam runner，例如Dataflow、Apache Flink 或 Apache Spark。

我建议阅读您各自运行时关于检查点的文档并检查相应 Beam runner 的管道选项。

例如，对于 Apache Flink，您必须通过 checkpointingInterval (FlinkPipelineOptions) 和另外的 configure checkpointing in Flink 启用检查点。

【讨论】：

【解决方案2】：

要从流中的不同位置开始，您可以使用以下任何一种：

.withInitialPositionInStream
.withInitialTimestampInStream

【讨论】：

上一篇：无法从形状为 [1, 10] 的 TensorFlowLite 张量 (StatefulPartitionedCall:1) 复制到形状为 [1, 10, 4] 下一篇：网页在java Spring中找不到我的映射答案

=

Node.js 7.5 上的“等待意外标识符”: 　　　　Node.js 7.5 引入了“等待意外标识符”（await unexpected identifier）的新功能，使得在异步代码中使用更简洁的同步风格编程成为可能。这一功能的引入对于开发者来说是一个...... ...
Node.js 17.0.1 Gatsby 错误 - “数字信封例程不支持... ERR_OSSL_EVP_UNSUPPORTED”[重复]: 　　　　标题: 解决 Node.js 17.0.1 Gatsby 错误 "数字信封例程::不支持... ERR_OSSL_EVP_UNSUPPORTED"在使用 Node.js 17.0.1 版本和 Gatsby 构建网站时，你可能会遇到一个错误信息...... ...
Node.js 12 的 TypeScript tsconfig 设置: 　　　　Node.js是一个基于Chrome V8引擎的JavaScript运行时环境，可以在服务器端运行JavaScript代码。Node.js 12是Node.js的一个稳定版本，它引入了许多新的特性和改进。在Node.js...... ...
Node.js 100% CPU - gettimeofday 调用: 　　　　在Node.js开发中，有时候我们可能会遇到CPU占用过高的问题。其中一种常见的情况是由于频繁调用gettimeofday函数导致的。本文将介绍Node.js中这个问题的原因，并提供一些解决...... ...
DAL 中的存储库与服务模式：EF 和 Dapper: 　　　　EF和Dapper：DAL中的存储库与服务模式在数据访问层（DAL）中，存储库和服务模式是常见的设计模式，用于管理应用程序与数据库之间的数据交互。两种常见的实现方式是使用Enti...... ...
DAL - BLL - GUI + 组合根。如何设置 DI 绑定: 　　　　在使用DAL（数据访问层）到BLL（业务逻辑层）的过程中，我们通常会使用GUI（图形用户界面）与组合根进行交互。为了实现依赖注入（DI）的绑定，我们需要明确每个层级的职责和...... ...
CustomErrors 与 HttpErrors - 重大设计缺陷: 　　　　在ASP.NET中，CustomErrors和HttpErrors是两个常用的错误处理机制。然而，这两个机制都存在一些重大设计缺陷，可能导致应用程序的安全性和用户体验方面的问题。首先，Custo...... ...
CSS、图像、JS 未在 IIS 中加载: 　　　　CSS、图像、JS 未在 IIS 中加载在进行网站开发过程中，经常会遇到CSS、图像和JS无法在IIS中加载的情况。这种情况可能导致网站无法正常显示样式、图像和交互效果，给用户带来...... ...
CalendarExtender 滚动后位置错误: 　　　　使用 CalendarExtender 控件时，有时会遇到滚动后位置错误的问题。这个问题会导致日历控件滚动到错误的位置，而不是所选日期的位置。在这篇文章中，我们将探讨这个问题的原...... ...
Cache.SetMaxAge 在 IIS 下不起作用，在 VS Dev Srv 下工作正常: 　　　　Cache.SetMaxAge 在 IIS 下不起作用，在 VS Dev Srv 下工作正常在进行网站开发中，我们经常需要使用缓存来提高网站的性能和响应速度。在.NET平台中，我们可以使用Cache对象...... ...
Cache.Add 绝对过期 - 是否基于 UTC: 　　　　Cache.Add 绝对过期 - 是否基于 UTC？在开发应用程序时，缓存是一种常用的技术来提高性能和减少对数据库或其他资源的请求。在使用缓存时，开发人员经常需要设置缓存项的过期...... ...
CA1305：int.Parse（字符串）: 　　　　一篇关于CA1305规则的文章：CA1305规则是一个静态代码分析规则，用于指导开发人员在使用int.Parse方法时遵循最佳实践。该规则要求开发人员在调用int.Parse方法时提供一个Cu...... ...
Node.js 10 的 TypeScript tsconfig 设置: 　　　　Node.js是一个基于Chrome V8 JavaScript引擎的JavaScript运行时环境，可以用于构建高性能的网络应用程序。TypeScript是一种静态类型的JavaScript超集，它扩展了JavaScript语...... ...
Node.js 10 HTTPS 服务器拒绝连接: 　　　　在使用Node.js 10的HTTPS服务器时，有时会遇到连接被拒绝的问题。这可能是由于一些常见的配置错误或网络问题导致的。本文将探讨一些可能的原因，并提供解决方案来解决这个问...... ...
Node.js 0.12.x 内存使用情况: 　　　　Node.js是一种基于Chrome V8引擎的JavaScript运行环境，它可以让JavaScript在服务器端运行。它是一个开源、跨平台的技术，已经成为现代Web开发中非常流行的选择之一。本文将...... ...