En este tutorial, le mostraremos cómo instalar Apache Hadoop en Debian 11. Para aquellos de ustedes que no lo sabían, Apache Hadoop es una plataforma de software de código abierto basada en Java que administra el procesamiento y almacenamiento de datos para aplicaciones de big data. Está diseñado para escalar de servidores únicos a miles de máquinas, cada una de las cuales ofrece computación y almacenamiento locales.
Este artículo asume que tiene al menos conocimientos básicos de Linux, sabe cómo usar el shell y, lo más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y asume que está ejecutando en la cuenta de root, de lo contrario, es posible que deba agregar ‘sudo
‘a los comandos para obtener privilegios de root. Le mostraré paso a paso la instalación del Apache Hadoop en Debian 11 (Bullseye).
Instalar en pc Apache Hadoop en Debian 11 Bullseye
Paso 1. Antes de instalar cualquier software, es importante asegurarse de que su sistema esté actualizado ejecutando lo siguiente apt
comandos en la terminal:
sudo actualización apta
sudo actualización apta
Paso 2. Instalar Java.
Apache Hadoop es una aplicación basada en Java. Entonces necesitará instalar Java en su sistema:
sudo apt install default-jdk default-jre
Verifique la instalación de Java:
java -version
Paso 3. Creación de un usuario de Hadoop.
Ejecute el siguiente comando para crear un nuevo usuario con el nombre Hadoop:
adduser hadoop
A continuación, cambie al usuario de Hadoop una vez que se haya creado el usuario:
su – hadoop
Ahora es el momento de generar la clave ssh porque Hadoop requiere acceso ssh para administrar su nodo, máquina remota o local, por lo que para nuestro único nodo de la configuración de Hadoop configuramos de manera que tengamos acceso al localhost:
ssh-keygen -t rsa
Después de eso, dé permiso al archivo Authorized_keys:
gato ~ / .ssh / id_rsa.pub >> ~ / .ssh / claves_autorizadas chmod 0600 ~ / .ssh / claves_autorizadas
Luego, verifique la conexión SSH sin contraseña con el siguiente comando:
ssh la dirección-IP-de-su-servidor
Paso 4. Instalación Apache Hadoop en Debian 11.
Primero, cambie al usuario de Hadoop y descargue la última versión de Hadoop de la página oficial usando lo siguiente wget
mando:
su – hadoop wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.1/hadoop-3.3.1-src.tar.gz
A continuación, extraiga el archivo descargado con el siguiente comando:
tar -xvzf hadoop-3.3.1.tar.gz
Una vez que esté descomprimido, cambie el directorio actual a la carpeta Hadoop:
su root cd / home / hadoop mv hadoop-3.3.1 / usr / local / hadoop
A continuación, cree un directorio para almacenar el registro con el siguiente comando:
mkdir / usr / local / hadoop / logs
Cambie la propiedad del directorio de Hadoop a Hadoop:
chown -R hadoop: hadoop / usr / local / hadoop su hadoop
Después de eso, configuramos las variables de entorno de Hadoop:
nano ~ / .bashrc
Agregue la siguiente configuración:
exportar HADOOP_HOME = / usr / local / hadoop exportar HADOOP_INSTALL = $ HADOOP_HOME exportar HADOOP_MAPRED_HOME = $ HADOOP_HOME exportar HADOOP_COMMON_HOME = $ HADOOP_HOME exportar HADOOP_HDFS_HOME = $ HADOOP_HOME_export $ HOPATH_HOME_exportar HADOOP_HOME / sbin: $ HADOOP_HOME / bin export HADOOP_OPTS = “- Djava.library.path = $ HADOOP_HOME / lib / native”
Save y close el archivo. Luego, active las variables de entorno:
fuente ~ / .bashrc
Paso 5. Configurar Apache Hadoop.
- Configure las variables de entorno de Java:
sudo nano $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
Agregue la siguiente configuración:
exportar JAVA_HOME = / usr / lib / jvm / java-11-openjdk-amd64 exportar HADOOP_CLASSPATH + = “$ HADOOP_HOME / lib / *. jar”
A continuación, necesitamos descargar el archivo de activación de Javax:
cd / usr / local / hadoop / lib
sudo wget https://jcenter.bintray.com/javax/activation/javax.activation-api/1.2.0/javax.activation-api-1.2.0.jar
Verifique el Apache Versión de Hadoop:
versión hadoop
Producción:
Hadoop 3.3.1
- Configure el archivo core-site.xml:
nano $ HADOOP_HOME / etc / hadoop / core-site.xml
Agregue el siguiente archivo:
- Configure el archivo hdfs-site.xml:
Antes de configurar, cree un directorio para almacenar metadatos de nodo:
mkdir -p / home / hadoop / hdfs / {namenode, datanode} chown -R hadoop: hadoop / home / hadoop / hdfs
A continuación, edite el hdfs-site.xml
archivo y defina la ubicación del directorio:
nano $ HADOOP_HOME / etc / hadoop / hdfs-site.xml
Agregue la siguiente línea:
- Configure el archivo mapred-site.xml:
Ahora editamos el mapred-site.xml
expediente:
nano $ HADOOP_HOME / etc / hadoop / mapred-site.xml
Agregue la siguiente configuración:
- Configure el archivo yarn-site.xml:
Debería editar el yarn-site.xml
archivo y defina la configuración relacionada con YARN:
nano $ HADOOP_HOME / etc / hadoop / yarn-site.xml
Agregue la siguiente configuración:
- Formato HDFS NameNode.
Ejecute el siguiente comando para formatear el nodo de nombre de Hadoop:
formato de propósito hdfs
- Inicie el clúster de Hadoop.
Ahora iniciamos NameNode y DataNode con el siguiente comando a continuación:
start-dfs.sh
A continuación, inicie los administradores de nodos y recursos YARN:
start-yarn.sh
Ahora puede verificarlos con el siguiente comando:
jps
Producción:
[email protected]: ~ $ jps 58000 NameNode 54697 DataNode 55365 ResourceManager 55083 SecondaryNameNode 58556 Jps 55365 NodeManager
Paso 6. Acceder a la interfaz web de Hadoop.
Una vez instalado correctamente, abra su navegador web y acceda Apache Hadoop usando la URL https://your-server-ip-address:9870
. Serás redirigido a la interfaz web de Hadoop:
Navegue por la dirección URL o IP de su host local para acceder a DataNodes individuales: https://your-server-ip-address:9864
Para acceder al Administrador de recursos de YARN, use la URL https://your-server-ip-adddress:8088
. Debería ver la siguiente pantalla:
¡Felicidades! Ha instalado correctamente Hadoop. Gracias por usar este tutorial para instalar la última versión de Apache Hadoop en Debian 11 Bullseye. Para obtener ayuda adicional o información útil, le recomendamos que consulte el oficial Apache sitio web.