Come installare Hadoop con la configurazione passo passo su Ubuntu

Sommario:

Anonim

In questo tutorial, ti guideremo attraverso il processo passo passo per installare Apache Hadoop su una macchina Linux (Ubuntu). Questo è un processo in 2 parti

  • Parte 1) Scarica e installa Hadoop
  • Parte 2) Configura Hadoop

Ci sono 2 prerequisiti

  • Devi avere Ubuntu installato e funzionante
  • Devi avere Java installato.

Parte 1) Scarica e installa Hadoop

Passaggio 1) Aggiungi un utente di sistema Hadoop utilizzando il comando seguente

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Inserisci la tua password, nome e altri dettagli.

NOTA: è possibile che si verifichi un errore indicato di seguito in questo processo di configurazione e installazione.

"hduser non è nel file sudoers. Questo incidente verrà segnalato."

Questo errore può essere risolto effettuando il login come utente root

Esegui il comando

sudo adduser hduser_ sudo

Re-login as hduser_

Passaggio 2) Configura SSH

Per poter gestire i nodi in un cluster, Hadoop richiede l'accesso SSH

Innanzitutto, cambia utente, inserisci il seguente comando

su - hduser_

Questo comando creerà una nuova chiave.

ssh-keygen -t rsa -P ""

Abilita l'accesso SSH alla macchina locale utilizzando questa chiave.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Ora prova la configurazione SSH connettendoti a localhost come utente "hduser".

ssh localhost

Nota: si prega di notare che, se di seguito viene visualizzato un errore in risposta a "ssh localhost", è possibile che SSH non sia disponibile su questo sistema-

Per risolvere questo problema -

Elimina SSH utilizzando,

sudo apt-get purge openssh-server

È buona norma eseguire lo spurgo prima dell'inizio dell'installazione

Installa SSH utilizzando il comando-

sudo apt-get install openssh-server

Passaggio 3) Il passaggio successivo è scaricare Hadoop

Seleziona Stabile

Seleziona il file tar.gz (non il file con src)

Una volta completato il download, vai alla directory contenente il file tar

Accedere,

sudo tar xzf hadoop-2.2.0.tar.gz

Ora, rinomina hadoop-2.2.0 come hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Parte 2) Configura Hadoop

Passaggio 1) Modifica il file ~ / .bashrc

Aggiungi le seguenti righe alla fine del file ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Ora, fonte questa configurazione dell'ambiente usando il comando seguente

. ~/.bashrc

Passaggio 2) Configurazioni relative a HDFS

Imposta JAVA_HOME nel file $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Con

Ci sono due parametri in $ HADOOP_HOME / etc / hadoop / core-site.xml che devono essere impostati-

1. "hadoop.tmp.dir": utilizzato per specificare una directory che verrà utilizzata da Hadoop per memorizzare i propri file di dati.

2. "fs.default.name": specifica il file system predefinito.

Per impostare questi parametri, apri core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Copia sotto la riga tra i tag

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Vai alla directory $ HADOOP_HOME / etc / Hadoop

Ora, crea la directory menzionata in core-site.xml

sudo mkdir -p 

Concedi le autorizzazioni alla directory

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Passaggio 3) Configurazione di riduzione della mappa

Prima di iniziare con queste configurazioni, imposta il percorso HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

Ed entra

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Avanti entra

sudo chmod +x /etc/profile.d/hadoop.sh

Esci dal Terminale e riavvia di nuovo

Digita echo $ HADOOP_HOME. Per verificare il percorso

Ora copia i file

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Apri il file mapred-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Aggiungi sotto le righe di impostazione tra i tag e

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Apri $ HADOOP_HOME / etc / hadoop / hdfs-site.xml come sotto,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Aggiungi sotto le righe di impostazione tra i tag e

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Crea una directory specificata nelle impostazioni precedenti-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Passaggio 4) Prima di avviare Hadoop per la prima volta, formatta HDFS utilizzando il comando seguente

$HADOOP_HOME/bin/hdfs namenode -format

Passaggio 5) Avvia il cluster a nodo singolo Hadoop utilizzando il comando seguente

$HADOOP_HOME/sbin/start-dfs.sh

Un output del comando precedente

$HADOOP_HOME/sbin/start-yarn.sh

Utilizzando lo strumento / comando "jps" , verifica se tutti i processi correlati ad Hadoop sono in esecuzione o meno.

Se Hadoop è stato avviato correttamente, un output di jps dovrebbe mostrare NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Passaggio 6) Arresto di Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh