Cómo instalar Apache Spark en Debian 10

En este tutorial, le mostraremos cómo instalar Apache Spark en Debian 10. Para aquellos de ustedes que no lo sabían, Apache Spark es un sistema informático de clúster rápido y de uso general. Proporciona API de alto nivel en Java, Scala y Python, y también un motor optimizado que admite gráficos de ejecución generales. También es compatible con un amplio conjunto de herramientas de alto nivel que incluyen Spark SQL para SQL y procesamiento de información estructurada, MLlib para aprendizaje automático, GraphX ​​para procesamiento de gráficos y Spark Streaming.

Este artículo asume que tiene al menos conocimientos básicos de Linux, sabe cómo usar el shell y, lo más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y asume que está ejecutando en la cuenta de root, de lo contrario, es posible que deba agregar ‘sudo‘a los comandos para obtener privilegios de root. Le mostraré paso a paso la instalación de Apache Spark en Debian 10 (Buster).

Instalar en pc Apache Spark en Debian 10 Buster

Paso 1. Antes de ejecutar el tutorial a continuación, es importante asegurarse de que su sistema esté actualizado ejecutando lo siguiente apt comandos en la terminal:

sudo apt update

Paso 2. Instalar Java.

Apache Spark requiere Java para ejecutarse, asegurémonos de tener Java instalado en nuestro sistema Debian:

sudo apt install default-jdk

Verifique la versión de Java usando el comando:

java -version

Paso 3. Instalar Scala.

Ahora instalamos el paquete Scala en los sistemas Debian:

sudo apt install scala

Verifique la versión de Scala:

scala -version

Paso 4. Instalación Apache Spark en Debian.

Ahora podemos descargar el Apache Spark binario:

wget https://www.apache.org/dyn/closer.lua/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

A continuación, extraiga el tarball de Spark:

tar xvf spark-3.1.1-bin-hadoop2.7.tgz
sudo mv spark-3.1.1-bin-hadoop2.7/ /opt/spark

Una vez hecho esto, configure el entorno Spark:

nano ~/.bashrc

Al final del archivo, agregue las siguientes líneas:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Save los cambios y close el editor. Para aplicar los cambios, ejecute:

source ~/.bashrc

Ahora empezar Apache Spark con estos comandos, uno de los cuales es el maestro del clúster:

start-master.sh

Para ver la interfaz de usuario de Spark Web como se muestra a continuación, abra un navegador web e ingrese la dirección IP del host local en el puerto 8080:

https://127.0.0.1:8080/

En esta configuración independiente de un solo servidor, iniciaremos un servidor esclavo junto con el servidor maestro. El start-slave.sh El comando se utiliza para iniciar el proceso de trabajo de Spark:

start-slave.sh spark://ubuntu1:7077

Ahora que un trabajador está en funcionamiento, si vuelve a cargar la interfaz de usuario web de Spark Master, debería verlo en la lista:

Una vez finalizada la configuración, inicie el servidor maestro y esclavo, pruebe si el shell Spark funciona:

spark-shell

¡Felicidades! Has instalado Spark correctamente. Gracias por usar este tutorial para instalar la última versión de Apache Spark en el sistema Debian. Para obtener ayuda adicional o información útil, le recomendamos que consulte el oficial Apache Sitio web de Spark.