使用本地(单个节点)或独立(集群)运行没有 Hadoop 火花,but stills需要 Hadoop 依赖的日志和一些文件处理。
Windows 是 强烈建议不要运行火花!
本地模式
有这么多的运行模式与火花,其中之一是所谓的本地将运行没有 hadoop 依赖。
所以,这里是第一个问题: < strong > 如何告诉 park 我们想在本地模式下运行?
读完这个 官方文件,我就在我的 linux 操作系统上试一试:
必须安装 java 和 scala,而不是核心内容,所以跳过它。
下载火花包
有“没有 hadoop”和“ hadoop 集成”2类包
The most important thing is "without hadoop" do NOT mean run without hadoop but just not bundle with hadoop so you can bundle it with your custom hadoop!
Spark can run without hadoop(HDFS and YARN) but need hadoop dependency jar such as parquet/avro etc SerDe class,so 强烈建议 to use "integrated" package(and you will found missing some log dependencies like log4j and slfj and other common utils class if chose "without hadoop" package but all this bundled with hadoop integrated pacakge)!
以本地模式运行
最简单的方法是运行 shell,您将看到欢迎日志
# as same as ./bin/spark-shell --master local[*]
./bin/spark-shell
独立模式
和吹的一样,但第三步不一样。
# Starup cluster
# if you want run on frontend
# export SPARK_NO_DAEMONIZE=true
./sbin/start-master.sh
# run this on your every worker
./sbin/start-worker.sh spark://VMS110109:7077
# Submit job or just shell
./bin/spark-shell spark://VMS110109:7077
在窗户上?
我知道很多人在窗户上放火花只是为了学习,但这里是 so different on windows,实际上是 强烈建议不要来使用窗户。
The most important things is download winutils.exe from 给你 and configure system variable HADOOP_HOME to point where winutils located.
目前3.2.1是 park 的最新版本,但是存在一个 bug。在运行 ./bin/spark-shell.cmd时会出现类似于 Illegal character in path at index 32: spark://xxxxxx:63293/D:\classe的异常,只有启动一个独立集群然后使用 ./bin/sparkshell.cmd或使用较低版本才能临时解决这个问题。
要了解更多细节和解决方案,您可以在这里参考 < a href = “ https://stackoverflow. com/a/69804576/6293507”>