• <li id="oiayd"><ruby id="oiayd"></ruby></li>

    <acronym id="oiayd"><strong id="oiayd"></strong></acronym>

    <acronym id="oiayd"></acronym>
    <track id="oiayd"><ruby id="oiayd"></ruby></track>
  • <track id="oiayd"><ruby id="oiayd"><menu id="oiayd"></menu></ruby></track>

  • 400-650-7353
    您所在的位置:首页 > IT干货资料 > 大数据 > 【大数据基础知识】Spark算子介绍及map算子的使用

    【大数据基础知识】Spark算子介绍及map算子的使用

    • 发布: 大数据培训
    • 来源:大数据干货资料
    • 2021-07-07 18:48:01
    • 阅读()
    • 分享
    • 手机端入口

    进入到大数据圈的朋友们都对Spark的强大功能有所了解,那么提到Spark,我们就想到了其中的算子,Spark的强大功能如何实现,自然离不开其中的算子了。怎么理解这些算子呢,我们可以简单把它理解为方法或函数,Spark已经定义好了很多功能强大的方法或函数,在这里称为算子。

    Spark中的算子分为两类:一是转换类算子(Transformation),二是行动类算子(Action)。转换类算子执行后得到新的RDD,并且不会立即执行,需要有行动类算子触发才能执行。行动类算子是立即执行的,并且执行后得到的不再是RDD。

    这次,我们用命令行的方式先来看看这些算子如何使用。

    首先,我们进入spark-shell命令行方式:

    [root@node2 ~]# spark-shell --master spark://node1:7077

    执行上面命令后,就进入了命令行方式:

    此时,我们就可以测试使用Spark中的算子了。

    有一点我们要注意的 ,这些算子都是作用在RDD上,所以我们首先要得到RDD。

    map算子

    map算子实现的是一一映射。

    对某一个rdd执行map,rdd中每一条数据都会执行操作。也就是说rdd中有几条数据,就会被迭代几次。

    执行map算子后返回值的数据类型,取决于给map传递的函数的返回值类型。

    scala> val rdd=sc.makeRDD(List(1,2,3,4,5,6,7),3)

    rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[3] at makeRDD at :24

    首先,我们通过makeRDD,将一个list转换成RDD,并且指定分区数为3。

    scala> val rdd1=rdd.map(_>5)

    rdd1: org.apache.spark.rdd.RDD[Boolean] = MapPartitionsRDD[4] at map at :26

    执行map算子,传递的函数是判断元素是否大于5,结果得到一个新的的RDD,并且元素类型是Boolean类型。由此我们也可以看到,结果RDD的元素类型就是由传入map算子的函数决定的。

    此时,实际上还没有真正执行,我们需要使用一个Action算子触发执行。

    scala> rdd1.collect

    [Stage 0:===================> res0: Array[Boolean] = Array(false, false, false, false, false, true, true)

    我们使用collect算子触发执行,得到结果。Collect算子是Action类算子,是将结果回收到客户端。在生产环境中,要慎用此算子。我们测试中因为数据量非常小,用此算子是没有问题的。

    文章“【大数据基础知识】Spark算子介绍及map算子的使用”已帮助

    >>本文地址:http://www.seyoho.com/zhuanye/2021/69184.html

    THE END  

    声明:本站稿件版权均属中公教育优就业所有,未经许可不得擅自转载。

    1 您的年龄

    2 您的学历

    3 您更想做哪个方向的工作?

    获取测试结果
    • 大前端大前端
    • 大数据大数据
    • 互联网营销互联网营销
    • JavaJava
    • Linux云计算Linux
    • Python+人工智能Python
    • 嵌入式物联网嵌入式
    • 全域电商运营全域电商运营
    • 软件测试软件测试
    • 室内设计室内设计
    • 平面设计平面设计
    • 电商设计电商设计
    • 网页设计网页设计
    • 全链路UI/UE设计UI设计
    • VR/AR游戏开发VR/AR
    • 网络安全网络安全
    • 新媒体与短视频运营新媒体
    • 直播带货直播带货
    • 智能机器人软件开发智能机器人
     

    快速通道fast track

    近期开班时间TIME

    日韩一级a片无卡顿

  • <li id="oiayd"><ruby id="oiayd"></ruby></li>

    <acronym id="oiayd"><strong id="oiayd"></strong></acronym>

    <acronym id="oiayd"></acronym>
    <track id="oiayd"><ruby id="oiayd"></ruby></track>
  • <track id="oiayd"><ruby id="oiayd"><menu id="oiayd"></menu></ruby></track>