如何安装 Apache Debian 10 上的 Spark

在本教程中,我们将向您展示如何安装 Apache Debian 10 上的 Spark。对于那些不知道的人, Apache Spark 是一个快速且通用的集群计算系统。 它提供 Java、Scala 和 Python 中的高级 API,以及支持整体执行图表的优化引擎。 它还支持一组丰富的高级工具,包括用于 SQL 和结构化信息处理的 Spark SQL、用于机器学习的 MLlib、用于图形处理的 GraphX 和 Spark Streaming。

本文假设您至少具备 Linux 的基本知识,知道如何使用 shell,最重要的是,您将网站托管在自己的 VPS 上。 安装非常简单,假设您在 root 帐户下运行,如果不是,您可能需要添加 ‘sudo‘ 到命令以获取 root 权限。 我将向您展示逐步安装 Apache Spark 在 Debian 10 (Buster) 上。

安装 Apache Debian 10 Buster 上的 Spark

第 1 步。在运行下面的教程之前,重要的是通过运行以下命令确保您的系统是最新的 apt 终端中的命令:

sudo apt update

步骤 2. 安装 Java。

Apache Spark 需要 Java 才能运行,让我们确保我们的 Debian 系统上安装了 Java:

sudo apt install default-jdk

使用以下命令验证 Java 版本:

java -version

步骤 3. 安装 Scala。

现在我们在 Debian 系统上安装 Scala 包:

sudo apt install scala

检查 Scala 的版本:

scala -version

步骤 4. 安装 Apache Debian 上的 Spark。

现在我们可以下载 Apache 火花二进制:

wget https://www.apache.org/dyn/closer.lua/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

接下来,提取 Spark tarball:

tar xvf spark-3.1.1-bin-hadoop2.7.tgz sudo mv spark-3.1.1-bin-hadoop2.7/ /opt/spark

完成后,设置 Spark 环境:

nano ~/.bashrc

在文件末尾,添加以下行:

 SPARK_HOME=/opt/spark  PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Save 变化和 close 编辑。 要应用更改运行:

source ~/.bashrc

现在开始 Apache Spark 使用这些命令,其中之一是集群的主控:

start-master.sh

要查看如下所示的 Spark Web 用户界面,请打开 Web 浏览器并在端口 8080 上输入 localhost IP 地址:

https://127.0.0.1:8080/

在这个单服务器独立设置中,我们将启动一个从属服务器和主服务器。 这 start-slave.sh 命令用于启动 Spark 工作进程:

start-slave.sh spark://ubuntu1:7077

现在一个 worker 已经启动并运行了,如果你重新加载 Spark Master 的 Web UI,你应该会在列表中看到它:

安装 Apache Debian 10 上的 Spark

完成配置后,启动主从服务器,测试 Spark shell 是否工作:

spark-shell

恭喜! 您已成功安装 Spark。 感谢您使用本教程安装最新版本的 Apache Debian 系统上的 Spark。 如需更多帮助或有用信息,我们建议您查看 官方 Apache 星火网站.