In questo tutorial, ti guideremo attraverso il processo passo passo per installare Apache Hadoop su una macchina Linux (Ubuntu). Questo è un processo in 2 parti
- Parte 1) Scarica e installa Hadoop
- Parte 2) Configura Hadoop
Ci sono 2 prerequisiti
- Devi avere Ubuntu installato e funzionante
- Devi avere Java installato.
Parte 1) Scarica e installa Hadoop
Passaggio 1) Aggiungi un utente di sistema Hadoop utilizzando il comando seguente
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Inserisci la tua password, nome e altri dettagli.
NOTA: è possibile che si verifichi un errore indicato di seguito in questo processo di configurazione e installazione.
"hduser non è nel file sudoers. Questo incidente verrà segnalato."
Questo errore può essere risolto effettuando il login come utente root
Esegui il comando
sudo adduser hduser_ sudo
Re-login as hduser_
Passaggio 2) Configura SSH
Per poter gestire i nodi in un cluster, Hadoop richiede l'accesso SSH
Innanzitutto, cambia utente, inserisci il seguente comando
su - hduser_
Questo comando creerà una nuova chiave.
ssh-keygen -t rsa -P ""
Abilita l'accesso SSH alla macchina locale utilizzando questa chiave.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Ora prova la configurazione SSH connettendoti a localhost come utente "hduser".
ssh localhost
Nota: si prega di notare che, se di seguito viene visualizzato un errore in risposta a "ssh localhost", è possibile che SSH non sia disponibile su questo sistema-
Per risolvere questo problema -
Elimina SSH utilizzando,
sudo apt-get purge openssh-server
È buona norma eseguire lo spurgo prima dell'inizio dell'installazione
Installa SSH utilizzando il comando-
sudo apt-get install openssh-server
Passaggio 3) Il passaggio successivo è scaricare Hadoop
Seleziona Stabile
Seleziona il file tar.gz (non il file con src)
Una volta completato il download, vai alla directory contenente il file tar
Accedere,
sudo tar xzf hadoop-2.2.0.tar.gz
Ora, rinomina hadoop-2.2.0 come hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Parte 2) Configura Hadoop
Passaggio 1) Modifica il file ~ / .bashrc
Aggiungi le seguenti righe alla fine del file ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Ora, fonte questa configurazione dell'ambiente usando il comando seguente
. ~/.bashrc
Passaggio 2) Configurazioni relative a HDFS
Imposta JAVA_HOME nel file $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
Con
Ci sono due parametri in $ HADOOP_HOME / etc / hadoop / core-site.xml che devono essere impostati-
1. "hadoop.tmp.dir": utilizzato per specificare una directory che verrà utilizzata da Hadoop per memorizzare i propri file di dati.
2. "fs.default.name": specifica il file system predefinito.
Per impostare questi parametri, apri core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Copia sotto la riga tra i tag
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Vai alla directory $ HADOOP_HOME / etc / Hadoop
Ora, crea la directory menzionata in core-site.xml
sudo mkdir -p
Concedi le autorizzazioni alla directory
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Passaggio 3) Configurazione di riduzione della mappa
Prima di iniziare con queste configurazioni, imposta il percorso HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
Ed entra
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Avanti entra
sudo chmod +x /etc/profile.d/hadoop.sh
Esci dal Terminale e riavvia di nuovo
Digita echo $ HADOOP_HOME. Per verificare il percorso
Ora copia i file
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Apri il file mapred-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Aggiungi sotto le righe di impostazione tra i tag
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Apri $ HADOOP_HOME / etc / hadoop / hdfs-site.xml come sotto,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Aggiungi sotto le righe di impostazione tra i tag
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Crea una directory specificata nelle impostazioni precedenti-
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Passaggio 4) Prima di avviare Hadoop per la prima volta, formatta HDFS utilizzando il comando seguente
$HADOOP_HOME/bin/hdfs namenode -format
Passaggio 5) Avvia il cluster a nodo singolo Hadoop utilizzando il comando seguente
$HADOOP_HOME/sbin/start-dfs.sh
Un output del comando precedente
$HADOOP_HOME/sbin/start-yarn.sh
Utilizzando lo strumento / comando "jps" , verifica se tutti i processi correlati ad Hadoop sono in esecuzione o meno.
Se Hadoop è stato avviato correttamente, un output di jps dovrebbe mostrare NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Passaggio 6) Arresto di Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh