In questo tutorial imparerai:
- Installazione di NLTK in Windows
- Installazione di Python in Windows
- Installazione di NLTK su Mac / Linux
- Installazione di NLTK tramite Anaconda
- Set di dati NLTK
- Come scaricare tutti i pacchetti di NLTK
- Esecuzione dello script PNL
- Come eseguire lo script NLTK
Installazione di NLTK in Windows
In questa parte, impareremo come configurare NLTK tramite terminale (prompt dei comandi in Windows).
Le istruzioni fornite di seguito si basano sul presupposto che non sia installato Python. Quindi, il primo passo è installare python.
Installazione di Python in Windows:
Fase 1) Vai al link https://www.python.org/downloads/ , e selezionare l'ultima versione per Windows.
Nota : se non desideri scaricare l'ultima versione, puoi visitare la scheda di download e vedere tutte le versioni.
Passaggio 2) Fare clic sul file scaricato
Passaggio 3) Selezionare Personalizza installazione
Passaggio 4) Fare clic su AVANTI
Passaggio 5) Nella schermata successiva
- Seleziona le opzioni avanzate
- Fornisci una posizione di installazione personalizzata. Nel mio caso, viene scelta una cartella sull'unità C per facilità d'uso
- Fare clic su Installa
Passaggio 6) Fare clic sul pulsante Chiudi una volta completata l'installazione.
Passaggio 7) Copia il percorso della cartella degli script.
Passaggio 8) Nel prompt dei comandi di Windows
- Vai alla posizione della cartella pip
- Immettere il comando per installare NLTK
pip3 install nltk
- L'installazione dovrebbe essere eseguita con successo
NOTA : per Python2 usa il comandopip2 install nltk
Passaggio 9) Nel menu Start di Windows, cerca e apri PythonShell
Passaggio 10) È possibile verificare se l'installazione è accurata fornendo il comando seguente
import nltk
Se non vedi alcun errore, l'installazione è completa.
Installazione di NLTK su Mac / Linux
L'installazione di NLTK in Mac / Unix richiede pip del gestore di pacchetti python per installare nltk. Se pip non è installato, seguire le istruzioni seguenti per completare il processo
Passaggio 1) Aggiorna l'indice del pacchetto digitando il comando seguente
sudo apt update
Step2) Installazione di pip per Python 3:
sudo apt install python3-pip
Puoi anche installare pip usando easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Ora easy_install è installato. Esegui il comando seguente per installare pip
sudo easy_install pip
Passaggio 3) Utilizzare il seguente comando per installare NLTK
sudo pip install -U nltksudo pip3 install -U nltk
Installazione di NLTK tramite Anaconda
Passaggio 1) Si prega di installare anaconda (che può essere utilizzato anche per installare diversi pacchetti) visitando https://www.anaconda.com/products/individual e selezionare quale versione di python è necessario installare per anaconda.
Nota: fare riferimento a questo tutorial per i passaggi dettagliati per installare anaconda
Passaggio 2) Nel prompt di Anaconda,
- Immettere il comando
conda install -c anaconda nltk
- Rivedi l'aggiornamento del pacchetto, il downgrade, installa le informazioni e inserisci sì
- NLTK viene scaricato e installato
Set di dati NLTK
Il modulo NLTK ha molti set di dati disponibili che devi scaricare per poterli utilizzare. Più tecnicamente si chiama corpus . Alcuni degli esempi sono stopwords , gutenberg , framenet_v15 , large_grammars e così via.
Come scaricare tutti i pacchetti di NLTK
Passaggio 1) Esegui l'interprete Python in Windows o Linux
Passo 2)
- Immettere i comandi
import nltknltk.download ()
- Si apre la finestra di download di NLTK. Fare clic sul pulsante Download per scaricare il set di dati. Questo processo richiederà tempo, in base alla tua connessione Internet
NOTA: è possibile modificare il percorso di download facendo clic su File> Cambia directory di download
Passaggio 3) Per testare i dati installati utilizzare il codice seguente
>>> from nltk.corpus import brown>>>brown.words()
["The", "Fulton", "County", "Grand", "Jury", "said", ...]
Esecuzione dello script PNL
Discuteremo come verrà eseguito lo script NLP sul nostro PC locale. Ci sono molte librerie per l'elaborazione del linguaggio naturale presenti sul mercato. Quindi la scelta di una libreria dipende dalle tue esigenze. Ecco l'elenco delle librerie NLP.
Come eseguire lo script NLTK
Step1) Nel tuo editor di codice preferito, copia il codice e salva il file come " NLTKsample.py "
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Spiegazione del codice:
- In questo programma, l'obiettivo era rimuovere tutti i tipi di punteggiatura dal testo dato. Abbiamo importato "RegexpTokenizer" che è un modulo di NLTK. Rimuove tutte le espressioni, simboli, caratteri, numeri o qualsiasi cosa tu voglia.
- Hai appena passato l'espressione regolare al modulo "RegexpTokenizer".
- Inoltre, abbiamo tokenizzato la parola usando il modulo "tokenize". L'output viene memorizzato nella variabile "filterdText".
- E li ha stampati usando "print ()".
Step2) Nel prompt dei comandi
- Vai alla posizione in cui hai salvato il file
- Esegui il comando Python NLTKsample.py
Questo mostrerà l'output come:
["Hello", "Guru99", "You", "have", "build", "a", "very", "good", "site", "and", "I", "love", " visitando "," tuo "," sito "]