Cos'è urllib?
urllib è un modulo Python che può essere utilizzato per aprire gli URL. Definisce funzioni e classi per aiutare nelle azioni URL.
Con Python puoi anche accedere e recuperare dati da Internet come XML, HTML, JSON, ecc. Puoi anche usare Python per lavorare direttamente con questi dati. In questo tutorial vedremo come recuperare i dati dal web. Ad esempio, qui abbiamo utilizzato un URL video guru99 e accederemo a questo URL video utilizzando Python e stamperemo il file HTML di questo URL.
In questo tutorial impareremo
- Come aprire l'URL utilizzando Urllib
- Come leggere il file HTML per il tuo URL in Python
Come aprire l'URL utilizzando Urllib
Prima di eseguire il codice per connettersi ai dati Internet, è necessario importare l'istruzione per il modulo della libreria URL o "urllib".
- Importa urllib
- Definisci la tua funzione principale
- Dichiara la variabile webUrl
- Quindi chiama la funzione urlopen nella libreria URL lib
- L'URL che stiamo aprendo è il tutorial di guru99 su YouTube
- Successivamente, stamperemo il codice risultato
- Il codice risultato viene recuperato chiamando la funzione getcode sulla variabile webUrl che abbiamo creato
- Lo convertiremo in una stringa, in modo che possa essere concatenato con la nostra stringa "codice risultato"
- Questo sarà un normale codice HTTP "200", che indica che la richiesta http è stata elaborata correttamente
Come ottenere l'URL del modulo del file HTML in Python
Puoi anche leggere il file HTML utilizzando la "funzione di lettura" in Python, e quando esegui il codice, il file HTML apparirà nella console.
- Chiama la funzione di lettura sulla variabile webURL
- La variabile di lettura consente di leggere il contenuto dei file di dati
- Leggi l'intero contenuto dell'URL in una variabile chiamata dati
- Esegui il codice: stamperà i dati in formato HTML
Ecco il codice completo
Esempio di Python 2
## read the data from the URL and print it#import urllib2def main():# open a connection to a URL using urllib2webUrl = urllib2.urlopen("https://www.youtube.com/user/guru99com")#get the result code and print itprint "result code: " + str(webUrl.getcode())# read the data from the URL and print itdata = webUrl.read()print dataif __name__ == "__main__":main()
Esempio di Python 3
## read the data from the URL and print it#import urllib.request# open a connection to a URL using urllibwebUrl = urllib.request.urlopen('https://www.youtube.com/user/guru99com')#get the result code and print itprint ("result code: " + str(webUrl.getcode()))# read the data from the URL and print itdata = webUrl.read()print (data)