[[355156]]
10多年的佛山网站建设经验,针对设计、前端、开发、售后、文案、推广等六对一服务,响应快,48小时及时工作处理。成都营销网站建设的优势是能够根据用户设备显示端的尺寸不同,自动调整佛山建站的显示方式,使网站能够适用不同显示终端,在浏览器中调整网站的宽度,无论在任何一种浏览器上浏览网站,都能展现优雅布局与设计,从而大程度地提升浏览体验。创新互联从事“佛山网站设计”,“佛山网站推广”以来,每个客户项目都认真落实执行。
1. 概述
在本教程中,我们将介绍 Apache Beam 并探讨其基本概念。我们将首先演示使用 Apache Beam 的用例和好处,然后介绍基本概念和术语。之后,我们将通过一个简单的例子来说明 Apache Beam 的所有重要方面。
2. Apache Beam是个啥?
Apache Beam(Batch+strEAM)是一个用于批处理和流式数据处理作业的统一编程模型。它提供了一个软件开发工具包,用于定义和构建数据处理管道以及执行这些管道的运行程序。
Apache Beam旨在提供一个可移植的编程层。事实上,Beam管道运行程序将数据处理管道转换为与用户选择的后端兼容的API。目前,支持这些分布式处理后端有:
3. 为啥选择 Apache Beam
Apache Beam 将批处理和流式数据处理融合在一起,而其他组件通常通过单独的 API 来实现这一点 。因此,很容易将流式处理更改为批处理,反之亦然,例如,随着需求的变化。
Apache Beam 提高了可移植性和灵活性。我们关注的是逻辑,而不是底层的细节。此外,我们可以随时更改数据处理后端。
Apache Beam 可以使用 Java、Python、Go和 Scala等SDK。事实上,团队中的每个人都可以使用他们选择的语言。
4. 基本概念
使用 Apache Beam,我们可以构建工作流图(管道)并执行它们。编程模型中的关键概念是:
简单地说,PipelineRunner 执行一个管道,管道由 PCollection 和 PTransform 组成。
5. 字数统计示例
现在我们已经学习了 Apache Beam 的基本概念,让我们设计并测试一个单词计数任务。
5.1 建造梁式管道
设计工作流图是每个 Apache Beam 作业的第一步,单词计数任务的步骤定义如下:
为了实现这一点,我们需要使用 PCollection 和 PTransform 抽象将上述步骤转换为 管道 。
5.2. 依赖
在实现工作流图之前,先添加 Apache Beam的依赖项 到我们的项目:
org.apache.beam beam-sdks-java-core ${beam.version}
Beam管道运行程序依赖于分布式处理后端来执行任务。我们添加 DirectRunner 作为运行时依赖项:
org.apache.beam beam-runners-direct-java ${beam.version} runtime
与其他管道运行程序不同,DirectRunner 不需要任何额外的设置,这对初学者来说是个不错的选择。
5.3. 实现
Apache Beam 使用 Map-Reduce 编程范式 ( 类似 Java Stream)。讲下面内容之前,最好 对 reduce(), filter(), count(), map(), 和 flatMap() 有个基础概念和认识。
首先要做的事情就是 创建管道:
- PipelineOptions options = PipelineOptionsFactory.create();
- Pipeline p = Pipeline.create(options);
六步单词计数任务:
- PCollection
> wordCount = p - .apply("(1) Read all lines",
- TextIO.read().from(inputFilePath))
- .apply("(2) Flatmap to a list of words",
- FlatMapElements.into(TypeDescriptors.strings())
- .via(line -> Arrays.asList(line.split("\\s"))))
- .apply("(3) Lowercase all",
- MapElements.into(TypeDescriptors.strings())
- .via(word -> word.toLowerCase()))
- .apply("(4) Trim punctuations",
- MapElements.into(TypeDescriptors.strings())
- .via(word -> trim(word)))
- .apply("(5) Filter stopwords",
- Filter.by(word -> !isStopWord(word)))
- .apply("(6) Count words",
- Count.perElement());
apply() 的第一个(可选)参数是一个String,它只是为了提高代码的可读性。下面是上述代码中每个 apply() 的作用:
首先,我们使用 TextIO 逐行读取输入文本文件。
将每一行按空格分开,把它映射到一个单词表上。
单词计数不区分大小写,所以我们将所有单词都小写。
之前,我们用空格分隔行,但是像“word!“和”word?"这样的,就需要删除标点符号。
像“is”和“by”这样的停止词在几乎每一篇英语文章中都很常见,所以我们将它们删除。
最后,我们使用内置函数 Count.perElement() 计算唯一单词数量。
如前所述,管道是在分布式后端处理的。不可能在内存中的PCollection上迭代,因为它分布在多个后端。相反,我们将结果写入外部数据库或文件。
首先,我们将PCollection转换为String。然后,使用TextIO编写输出:
- wordCount.apply(MapElements.into(TypeDescriptors.strings())
- .via(count -> count.getKey() + " --> " + count.getValue()))
- .apply(TextIO.write().to(outputFilePath));
现在管道 已经定义好了,接下来做个简单的测试。
5.4. 运行测试
到目前为止,我们已为单词计数任务定义了管道,现在运行管道:
- p.run().waitUntilFinish();
在这行代码中,Apache Beam 将把我们的任务发送到多个 DirectRunner 实例。因此,最后将生成几个输出文件。它们将包含以下内容:
- ...
- apache --> 3
- beam --> 5
- rocks --> 2
- ...
在 Apache Beam 中定义和运行分布式作业是如此地简单。为了进行比较,单词计数实现在 Apache Spark, Apache Flink 和 Hazelcast-Jet 上也有
6. 结语
在本教程中,我们了解了 Apache Beam 是什么,以及它为什么比其他选择更受欢迎。我们还通过一个单词计数示例演示了 Apache Beam 的基本概念。
本文转载自微信公众号「锅外的大佬」,可以通过以下二维码关注。转载本文请联系锅外的大佬公众号。
新闻名称:ApacheBeam是什么,它为什么比其他选择更受欢迎?
链接URL:http://www.mswzjz.cn/qtweb/news24/275374.html
攀枝花网站建设、攀枝花网站运维推广公司-贝锐智能,是专注品牌与效果的网络营销公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 贝锐智能