Cómo instalar Apache Hadoop en Debian 11

En este tutorial, le mostraremos cómo instalar Apache Hadoop en Debian 11. Para aquellos de ustedes que no lo sabían, Apache Hadoop es una plataforma de software de código abierto basada en Java que administra el procesamiento y almacenamiento de datos para aplicaciones de big data. Está diseñado para escalar de servidores únicos a miles de máquinas, cada una de las cuales ofrece computación y almacenamiento locales.

Este artículo asume que tiene al menos conocimientos básicos de Linux, sabe cómo usar el shell y, lo más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y asume que está ejecutando en la cuenta de root, de lo contrario, es posible que deba agregar ‘sudo‘a los comandos para obtener privilegios de root. Le mostraré paso a paso la instalación del Apache Hadoop en Debian 11 (Bullseye).

Instalar en pc Apache Hadoop en Debian 11 Bullseye

Paso 1. Antes de instalar cualquier software, es importante asegurarse de que su sistema esté actualizado ejecutando lo siguiente apt comandos en la terminal:

sudo actualización apta
sudo actualización apta

Paso 2. Instalar Java.

Apache Hadoop es una aplicación basada en Java. Entonces necesitará instalar Java en su sistema:

sudo apt install default-jdk default-jre

Verifique la instalación de Java:

java -version

Paso 3. Creación de un usuario de Hadoop.

Ejecute el siguiente comando para crear un nuevo usuario con el nombre Hadoop:

adduser hadoop

A continuación, cambie al usuario de Hadoop una vez que se haya creado el usuario:

su – hadoop

Ahora es el momento de generar la clave ssh porque Hadoop requiere acceso ssh para administrar su nodo, máquina remota o local, por lo que para nuestro único nodo de la configuración de Hadoop configuramos de manera que tengamos acceso al localhost:

ssh-keygen -t rsa

Después de eso, dé permiso al archivo Authorized_keys:

gato ~ / .ssh / id_rsa.pub >> ~ / .ssh / claves_autorizadas chmod 0600 ~ / .ssh / claves_autorizadas

Luego, verifique la conexión SSH sin contraseña con el siguiente comando:

ssh la dirección-IP-de-su-servidor

Paso 4. Instalación Apache Hadoop en Debian 11.

Primero, cambie al usuario de Hadoop y descargue la última versión de Hadoop de la página oficial usando lo siguiente wget mando:

su – hadoop wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.1/hadoop-3.3.1-src.tar.gz

A continuación, extraiga el archivo descargado con el siguiente comando:

tar -xvzf hadoop-3.3.1.tar.gz

Una vez que esté descomprimido, cambie el directorio actual a la carpeta Hadoop:

su root cd / home / hadoop mv hadoop-3.3.1 / usr / local / hadoop

A continuación, cree un directorio para almacenar el registro con el siguiente comando:

mkdir / usr / local / hadoop / logs

Cambie la propiedad del directorio de Hadoop a Hadoop:

chown -R hadoop: hadoop / usr / local / hadoop su hadoop

Después de eso, configuramos las variables de entorno de Hadoop:

nano ~ / .bashrc

Agregue la siguiente configuración:

exportar HADOOP_HOME = / usr / local / hadoop exportar HADOOP_INSTALL = $ HADOOP_HOME exportar HADOOP_MAPRED_HOME = $ HADOOP_HOME exportar HADOOP_COMMON_HOME = $ HADOOP_HOME exportar HADOOP_HDFS_HOME = $ HADOOP_HOME_export $ HOPATH_HOME_exportar HADOOP_HOME / sbin: $ HADOOP_HOME / bin export HADOOP_OPTS = “- Djava.library.path = $ HADOOP_HOME / lib / native”

Save y close el archivo. Luego, active las variables de entorno:

fuente ~ / .bashrc

Paso 5. Configurar Apache Hadoop.

  • Configure las variables de entorno de Java:

sudo nano $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Agregue la siguiente configuración:

exportar JAVA_HOME = / usr / lib / jvm / java-11-openjdk-amd64 exportar HADOOP_CLASSPATH + = “$ HADOOP_HOME / lib / *. jar”

A continuación, necesitamos descargar el archivo de activación de Javax:

cd / usr / local / hadoop / lib
sudo wget https://jcenter.bintray.com/javax/activation/javax.activation-api/1.2.0/javax.activation-api-1.2.0.jar

Verifique el Apache Versión de Hadoop:

versión hadoop

Producción:

Hadoop 3.3.1

  • Configure el archivo core-site.xml:

nano $ HADOOP_HOME / etc / hadoop / core-site.xml

Agregue el siguiente archivo:

fs.default.name hdfs: //0.0.0.0: 9000 El URI del sistema de archivos predeterminado

  • Configure el archivo hdfs-site.xml:

Antes de configurar, cree un directorio para almacenar metadatos de nodo:

mkdir -p / home / hadoop / hdfs / {namenode, datanode} chown -R hadoop: hadoop / home / hadoop / hdfs

A continuación, edite el hdfs-site.xml archivo y defina la ubicación del directorio:

nano $ HADOOP_HOME / etc / hadoop / hdfs-site.xml

Agregue la siguiente línea:

dfs.replication 1 dfs.name.dir file: // / home / hadoop / hdfs / namenode dfs.data.dir file: /// home / hadoop / hdfs / datanode

  • Configure el archivo mapred-site.xml:

Ahora editamos el mapred-site.xml expediente:

nano $ HADOOP_HOME / etc / hadoop / mapred-site.xml

Agregue la siguiente configuración:

mapreduce.framework.name yarn

  • Configure el archivo yarn-site.xml:

Debería editar el yarn-site.xml archivo y defina la configuración relacionada con YARN:

nano $ HADOOP_HOME / etc / hadoop / yarn-site.xml

Agregue la siguiente configuración:

yarn.nodemanager.aux-services mapreduce_shuffle

  • Formato HDFS NameNode.

Ejecute el siguiente comando para formatear el nodo de nombre de Hadoop:

formato de propósito hdfs

  • Inicie el clúster de Hadoop.

Ahora iniciamos NameNode y DataNode con el siguiente comando a continuación:

start-dfs.sh

A continuación, inicie los administradores de nodos y recursos YARN:

start-yarn.sh

Ahora puede verificarlos con el siguiente comando:

jps

Producción:

[email protected]: ~ $ jps 58000 NameNode 54697 DataNode 55365 ResourceManager 55083 SecondaryNameNode 58556 Jps 55365 NodeManager

Paso 6. Acceder a la interfaz web de Hadoop.

Una vez instalado correctamente, abra su navegador web y acceda Apache Hadoop usando la URL https://your-server-ip-address:9870. Serás redirigido a la interfaz web de Hadoop:

Navegue por la dirección URL o IP de su host local para acceder a DataNodes individuales: https://your-server-ip-address:9864

Para acceder al Administrador de recursos de YARN, use la URL https://your-server-ip-adddress:8088. Debería ver la siguiente pantalla:

¡Felicidades! Ha instalado correctamente Hadoop. Gracias por usar este tutorial para instalar la última versión de Apache Hadoop en Debian 11 Bullseye. Para obtener ayuda adicional o información útil, le recomendamos que consulte el oficial Apache sitio web.