社区云

Việt Hán Việt Gốc

Dichtienghoa.com không chịu trách nhiệm cho nội dung bên dưới

V HV G

Dichtienghoa.com không chịu trách nhiệm cho nội dung bên dưới

写文章

登录社区云

登录社区云，与社区用户共同成长

邀请您加入社区

欢迎加入社区

热门标签

#数据分析
#python
#linux
#javascript
#java
#vue.js

spark

0订阅用户 · 2296篇文章

C学堂来自科技大视野开发者社区

devpress.csdn.net/developer · 2024-10-23 20:18:37

数据技术进化史：从数据仓库到数据中台再到数据飞轮

数据仓库为企业提供了基础的数据分析能力，数据中台进一步实现了数据的整合与共享，而数据飞轮则通过数据与业务的深度互动，形成了正反馈循环，推动企业持续增长。随着数字经济的快速发展，数据的价值变得越来越重要，数据技术也在不断升级，从数据仓库到数据中台，再到如今的数据飞轮，每个阶段的技术进步都对企业的数据管理和业务运营产生了深远的影响。数据中台为数据飞轮的构建提供了基础的数据治理和整合平台，而数据飞轮则进

#spark #大数据 #分布式

2 
Java蜗牛来自华为开发者空间

huaweicloud.csdn.net · 2014-07-22 21:19:05

spark学习十二 hive on spark 环境搭建及测试

安装概览整体的安装过程分为以下几步搭建Hadoop集群 (整个cluster由3台机器组成，一台作为Master,另两台作为Slave)编译Spark 1.0，使其支持Hadoop 2.4.0和Hive运行Hive on Spark的测试用例 (Spark和Hadoop Namenode运行在同一台机器)Hadoop集群搭建创建虚拟机创建基于kvm的虚拟机，

#spark

1089 
daimin1 来自华为开发者空间

huaweicloud.csdn.net · 2021-07-21 14:19:03

虚拟机spark安装

虚拟机上安装1、将spark-3.1.2-bin-hadoop3.2.zip安装包传到download2、解压 tar -zxvf spark-3.1.2-bin-hadoop3.2.zip -C /opt/software/3、改名：mv spark-3.1.2-bin-hadoop3.2 spark3124、进入：cd conf5、改名：mv spark-env.sh.template spa

#spark #hadoop #大数据 +1

1102 
??107 来自华为开发者空间

huaweicloud.csdn.net · 2015-08-08 10:34:01

hadoop和spark集成环境搭建

本人使用的是Ubuntu系统：ubuntu-12.04-desktop-i386.iso和虚拟机VMwareworkstation-v9.0.1。搭建的hadoop和spark所需要准备的资料分别有：jdk-7u51-linux-i586.tar.gzhadoop-2.2.0.tar.gzscala-2.11.2.tgzspark-1.0.2-bin-hadoop2.tgz

#spark #hadoop

1519 
轻夏来自华为开发者空间

huaweicloud.csdn.net · 2023-10-13 20:56:18

Hadoop-HA-Hive-on-Spark 4台虚拟机安装配置文件

spark-history（设置权限777），spark-jars文件夹。ln -s 源文件名新文件名。ln -s 源文件名新文件名。ln -s 源文件名新文件名。链接hadoop中的文件。链接hadoop中的文件。上传jar到hdfs。链接hive中的文件。

#hadoop #hive #spark

1177 
郭畅小渣渣来自华为开发者空间

huaweicloud.csdn.net · 2018-06-07 10:36:56

Hadoop伪分布式配置与测试--spark基础（20180607云计算实验）

课程原地址：http://hbust.shiyanbar.com/course/91079上课老师：李歆实验时间：20180607地点：云桌面实验人：郭畅实验目的1)学会hadoop伪分布式配置2)理解伪分布式配置的配置文件实验原理Hadoop伪分布式配置是在没有多台计算机节点的情况下，对hadoop的分布式存储和计算进行模拟安装和配置。通过在一台计算机节点上解压hadoop安装压缩包后，..

#spark

1735 

2 
安西宁来自华为开发者空间

huaweicloud.csdn.net · 2020-06-05 14:47:05

Spark环境配置与安装

目前，CSDN博文搜索有时候看不到博文发表时间，如果以后能像百度学术那样有搜索的时间范围选项不知道会不会更好一点。虽说百度也收录了CSDN博文，可以搜到。前提，官网说明要先安装配置好java8或者java11。此处，博主安装在已经配置好Hadoop伪分布的虚拟机Linux上，Hadoop2.7.3，Java1.8.x。参考网文，首先安装Scala：Linux命令行，mkdir /usr/scala

#spark #大数据

1241 
lsr40 来自华为开发者空间

huaweicloud.csdn.net · 2019-01-30 22:17:10

【spark】搭建生产环境的spark服务

固定开头，菜鸡一只，如有说错，请大家批评指出，一定改正！事情是这样，当我们学习spark的时候，搭建一个环境是最简单也是最开始我们要做的，一般情况下，我们都是使用虚拟机（linux机器）来搭建spark的环境，然后让spark运行在yarn上（其实也有其他几个模式，但是yarn模式是较常见的通用的资源管理平台）但是本文要说的是如何在生产（环境）服务器上，搭建自己的spark环境 ...

#spark

1855 
2401_86640293 来自华为开发者空间

huaweicloud.csdn.net · 2024-09-05 04:23:47

Hadoop完全分布式+spark（python）

这是因为在根据master主机克隆的同时把主机名也克隆了，这就导致slave1主机和slave2主机的主机名也为master，因此要进行配置，在slave1,slave2上分别执行。做完以上操作后系统的准备工作就做好了，但实际在操作主机时是不会真的在主机上操作，而通常是通过一个远程连接软件来操作主机的，那么我们就来使用XShell软件实现远程登录。最后点击确定，这样虚拟机网卡就配置好了，然后设置W

#分布式 #hadoop #spark

1080 

21 
阿飞的笔记本来自华为开发者空间

huaweicloud.csdn.net · 2023-04-28 16:56:28

org.apache.hadoop.hive.ql.parse.SemanticException:Failed to get a spark session: org.apache.hadoop.h

编辑虚拟机中hadoop-3.1.3/etc/hadoop目录下的capacity-scheduler.xml文件。这个配置是用于设置集群中可用于运行的最大资源百分比应用程序主机，控制并发运行的数量应用。可以理解为集群资源不够了,这里把整个集群资源中用于运行的上限值调高,就ok了。这里更改为0.5,默认是0.1。

#hadoop #hive #spark

1405 
莫尼莫尼来自华为开发者空间

huaweicloud.csdn.net · 2022-01-06 21:29:38

SparkStreaming有状态算子updateStateByKey

updateStateByKeyupdateStateByKey与reduceByKey代码实现updateStateByKeyupdateStateByKey与reduceByKey代码实现updateStateByKey虚拟机端：nc -lk 8888 用于测试代码在IDEA中运行，从虚拟机nc -lk 8888指令的命令行中接收数据package sparkstreamingimport o

#spark #intellij-idea #scala

1083 
p_q_hersen 来自华为开发者空间

huaweicloud.csdn.net · 2018-08-03 22:00:59

spark2.3.1集群模式搭建

首先感谢这篇文章的老哥：https://blog.csdn.net/Vitamin__C/article/details/806700291.所用虚拟机及Lunix系统虚拟机：VMware Workstation Pro v12.5.9Linux：Ubuntu-16.04.42.准备3台虚拟机hostname分别为master，slave1，slave2，并固定好对应的i...

#spark

1840 

2 
Java三千了来自华为开发者空间

huaweicloud.csdn.net · 2022-05-04 15:44:33

spark 在虚拟机中无法导入SparkSession

spark 在虚拟机中无法导入SparkSession

#java #spark

1589 
stearm210 来自华为开发者空间

huaweicloud.csdn.net · 2022-12-21 23:10:02

云计算技术实验九 Spark的安装和基础编程

得到这些单词的集合之后，开始使用键值对的方式对出现的单词进行计数，每出现一次就使用键值对计算一次。之后遍历文件中的内容，对每个单词进行切分归类，后面使用flatMap命令为的是得到一个关于单词的集合。在进行打包的时候需要进行等待软件包下载好，否则再次进行打包的时候会产生数据的流失。为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。进行打包的时候需要对路径进行判断，防止路径错误导致

#spark #云计算 #大数据

1676 
一线码奴来自华为开发者空间

huaweicloud.csdn.net · 2015-04-23 20:44:03

Spark学习笔记一环境搭建

一、环境介绍我在这里用的是三台虚拟机master 192.168.1.100slave1 192.168.1.101slave2 192.168.1.102二、程序下载这里已经把程序传到网盘上这，方便大家下载1、hadoop-2.5.22、scala-2.11.63、spark-1.3.1-bin-hadoop2.4三、开始安装1、安装hadoop，安装

#spark #scala

1603 
韩利鹏来自华为开发者空间

huaweicloud.csdn.net · 2017-10-30 15:24:15

spark性能调优都有哪些方法

1、常规性能调优：分配资源、并行度。。。等2、JVM调优（Java虚拟机）：JVM相关的参数，通常情况下，如果你的硬件配置、基础的JVM的配置，都ok的话，JVM通常不会造成太严重的性能问题；反而更多的是，在troubleshooting中，JVM占了很重要的地位；JVM造成线上的spark作业的运行报错，甚至失败（比如OOM）。3、shuffle调优（相当重要）：spark在执行grou

#spark

1420 
国土无双87 来自华为开发者空间

huaweicloud.csdn.net · 2023-06-21 09:54:17

虚拟机上进行Hadoop伪分布式部署并进行大数据处理

0是SEQ，1是酒店，2是国家，3是省份，4是城市等等....，我们可以知道new Tuple2(s.split(",")[1],1)输出的应该是(酒店，1)的元组集合，那我们来测试一下吧。后面的"hdfs://localhost:9000/data.csv"是刚才上传的data.csv在hadoop上的路径，后面的1是给给这个rdd分配1个块，一个块128M，相当于给RDD一个住的地方，不然无家

#分布式 #linux #大数据 +4

1331 

6 
左岸2420 来自华为开发者空间

huaweicloud.csdn.net · 2023-09-12 19:47:04

在虚拟机内安装Spark

根据自己hadoop的版本进行下载（spark的版本不重要重要的是后面是基于hadoop的哪个版本）指令：sudo mv spark-3.2.4-bin-hadoop2.7 /usr/local。找到spark-3.2.4-bin-hadoop2.7的所在地，点进去，在右键打开终端，输入。指令：tar -zxvf spark-3.2.4-bin-hadoop2.7.tgz。需要输入的密码就是自己

#spark #大数据 #运维

1843 
暖暖的味道来自华为开发者空间

huaweicloud.csdn.net · 2022-09-22 18:52:31

大数据技术----Spark实验

虚拟机之Spark环境搭建

#大数据 #spark #数据仓库

1089 

1 
一顿吃不饱来自华为开发者空间

huaweicloud.csdn.net · 2021-11-24 21:08:51

Scala语言编程基础

文章目录Scala语言编程基础1、实验描述2、实验环境3、相关技能4、知识点5、实现效果6、实验步骤7、总结Scala语言编程基础1、实验描述完成Scala的基本操作，达到对Scala的基本熟悉。实验时长：45分钟主要步骤：练习Scala的基础语法学习使用Scala的基本数据类型学习使用Scala的函数2、实验环境虚拟机数量：1系统版本：Centos 7.5JDK 版本：1.8.0_131Scal

#大数据 #scala #spark +2

1054 

1 
akenseren 来自华为开发者空间

huaweicloud.csdn.net · 2021-04-07 14:50:43

idea对spark程序进行远程提交和调试

第一部分远程提交本文以WordCount程序来实现idea对spark程序进行远程提交和调试环境利用虚拟机搭建拥有3台主机的spark集群hadoop102hadoop103hadoop104IntelliJ IDEA 2020.3.2 (Ultimate Edition)背景知识若要把 Spark SQL 连接到一个部署好的 Hive 上，你必须把 hive-site.xml 复制到 Spar

#spark #hive #大数据

1226 
我与共饮长江水来自华为开发者空间

huaweicloud.csdn.net · 2020-10-27 10:22:17

Spark SQL连接Hive失败 org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

我的需求使用Spark连接Hive，访问Hive表语法是Spark SQL上代码ConnectHiveDemo.scala/*** 本地虚拟机的地址是：10.211.55.101；* 需要根据自己的IP地址修改；9083是Hive的访问端口* 我的Hive表是t_data*/object ConnectHiveDemo {def main(args: Array[String]): Unit =

#hive #spark #大数据

1102 

1 
huang1196 来自华为开发者空间

huaweicloud.csdn.net · 2017-02-10 17:00:36

Ubuntu虚拟机下使用docker构建cluster运行Spark

1. 安装Docker参考https://docs.docker.com/engine/installation/linux/ubuntu/ 安装docker2. 选择基础镜像这里选择ubuntu:16.04版本docker pull ubuntu:16.04运行ubuntu镜像：docker run --rm -it ubuntu:16.04root@mark-virtual-machine:/

#docker #spark #虚拟机 +1

1191 

1 
Rocky_wangjialin 来自华为开发者空间

huaweicloud.csdn.net · 2015-04-23 00:05:41

决胜Hadoop&Spark大数据时代：Hadoop&Yarn&Spark企业级最佳实践

王家林：Spark、Docker、Android技术中国区布道师。联系邮箱[email protected] 电话：18610086859 QQ:1740415547 微信号：18610086859 Hadoop、Yarn、Spark是企业构建生产环境下大数据中心的关键技术，也是大数据处理的核心技术，是每个云计算大数据工程师必修课。大数据时代的精髓技术在于

#spark #hadoop #yarn +2

1482 
小宇0926 来自华为开发者空间

huaweicloud.csdn.net · 2020-12-07 10:54:08

Spark2.4.7(Standalone)搭建

Spark2.4.7(Standalone)搭建1.虚拟机环境主机名IP内存磁盘CPU系统hadoop1192.168.56.772G40G1Centos7hadoop2192.168.56.882G40G1Centos7hadoop3192.168.56.992G40G1Centos72.下载安装包使用中科大的开源软件镜像站，https://mirrors.ustc.edu.cn/apache/

#大数据 #spark #linux

1142 
逍遥壮士来自华为开发者空间

huaweicloud.csdn.net · 2021-09-04 21:09:17

jvm的jps简单使用

jps是什么,干什么用？ jps（JVM Process Status Tool），可以列出正在运行的虚拟机进程，并显示虚拟机执行主类（Main Class，main()函数所在的类...

#jvm #nginx #spark +2

1437 
DemoAnker 来自华为开发者空间

huaweicloud.csdn.net · 2023-06-10 17:28:08

基于大数据的农产品价格数据分析

基于大数据的农产品价格分析系统，部署在虚拟机上面，配置了hadoop和sprak等环境

#大数据 #python #flask +2

1358 

2 
提灯寻梦在南国来自华为开发者空间

huaweicloud.csdn.net · 2018-11-22 13:03:31

Spark学习路线-从入门到精通

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台，它立足于内存计算，性能超过Hadoop百倍，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式，是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题，具有完善的生态系统，这直接奠定了其一统云计算大数据领域的霸主地位。伴随Spark技.

#spark

1836 

加载更多

标签介绍

spark

——spark

热门标签

开源

1篇文章
阿里云

1篇文章
人工智能

1篇文章

关于我们

联系我们（工作时间：8:30-22:00）

400-660-0108 [email protected]

京ICP备19004658号
©1999-2023北京创新乐知网络技术有限公司
网络110报警服务
中国互联网举报中心
家长监护

回到
顶部