Scaricare un intero sito web è utile se desideri avere la tua copia del testo, delle immagini e degli altri contenuti, nel caso in cui l’autore lo elimini o il sito web venga chiuso. Tuttavia, i browser Web non includono questa funzionalità immediatamente. Ecco come scaricare un intero sito utilizzando lo strumento wget.
Prima che inizi
Prima di iniziare, assicurati di avere spazio su disco sufficiente per salvare il sito che desideri scaricare. Alcuni siti hanno un quantità di pagine e a quantità di contenuti che possono accumularsi rapidamente, quindi tieni presente cosa scaricherai per non esaurire lo spazio di archiviazione. Se utilizzi un laptop, assicurati di essere collegato a una presa di corrente, poiché il download di migliaia di file potrebbe richiedere del tempo.
Se utilizzi Windows, dovrai farlo installare il sottosistema Windows per Linux (WSL) per ottenere l’accesso a wget.
Inoltre, tieni presente che molti siti Web moderni vengono generati dinamicamente, il che significa che elaborano i dati sui loro server per generare pagine che cambiano quando vengono aggiunti nuovi contenuti o quando aggiorni la pagina. Il download di un sito Web o di una pagina ne crea un’istantanea in quel momento, quindi dovrai scaricare nuovamente il sito se desideri una copia aggiornata.
Come copiare un intero sito Web localmente utilizzando Wget
Wget è uno strumento da riga di comando per scaricare dati dal web. È installato per impostazione predefinita su Ubuntu (questo significa anche WSL) e Fedora. Se utilizzi una distribuzione basata su Arch, dovrai farlo installarlo. Se utilizzi macOS, wget è disponibile tramite MacPort.
Se utilizzi Linux o MacOS, dovrai aprire una finestra di Terminale. Se utilizzi Windows utilizzando WSL, avvia la distribuzione Linux che desideri utilizzare.
Puoi verificare che wget sia installato eseguendo:
wget –help Se wget è disponibile sul tuo sistema, il comando restituirà informazioni sul comando wget.
Ora sei pronto per iniziare il download. Questo è il comando per scaricare un intero sito web:
wget -mpEk https://example.com Questo comando proverà a prendere tutto ciò che può dal sito web all’indirizzo https://esempio.comscansiona tutti i collegamenti sulla prima pagina, scarica le pagine collegate e tutto ciò che contengono, quindi continua attraverso le pagine collegate da quelle pagine.
Ecco cosa significano ciascuno dei flag di comando (le lettere che seguono il trattino nel comando wget sopra):
- -M abilita diverse opzioni che configurano wget per il mirroring di un sito Web, incluso il controllo del timestamp e la profondità di ricorsione infinita
- -P dice a wget di ottenere tutti i requisiti della pagina, come immagini, media, fogli di stile e file JavaScript
- -E regola le estensioni dei file scaricati in modo che corrispondano a quelle sul server
- -K converte i collegamenti nelle pagine salvate per puntare alle tue copie locali, in modo che il tuo sito offline possa essere navigato completamente senza una connessione Internet
Saprai che il download del sito Web è stato eseguito correttamente quando viene visualizzato un output simile al seguente:
$ wget -mpEk https://example.com
–2024-04-0510:00:00– https://example.com/
Resolvingexample.com (example.com)… 93.184.216.34
Connecting to example.com (example.com)|93.184.216.34|:443… connected.
HTTP request sent, awaiting response… 200 OK
Length: unspecified[text/html]
Saving to: ‘example.com/index.html’
example.com/index.html [ ] 1.07K –.-KB/s in 0s
2024-04-05 10:00:01 (68.7 MB/s) – ‘example.com/index.html’ saved [1096] Tieni presente che, sebbene si tratti di un download ricorsivo, verranno scaricati solo i collegamenti dal sito Web specificato. Le pagine su altri siti Web rimarranno online e richiederanno una connessione Internet per essere visualizzate.
Puoi vedere un elenco completo di tutti i flag di comando wget e cosa fanno nel file manuale utente wget.
Ricorda, l’operazione potrebbe richiedere del tempo e non esiste un modo reale per stimare quanto tempo impiegherà il download di siti Web di grandi dimensioni, quindi vale la pena controllare i progressi di tanto in tanto per assicurarsi che le cose stiano ancora procedendo.
Che ne dici di scaricare solo una pagina?
Se desideri scaricare una singola pagina web, il tuo browser web può farlo in un processo molto più semplice: basta andare al menu File e quindi fare clic sul pulsante “Salva” (la dicitura potrebbe essere leggermente diversa per il tuo browser, in Firefox è “Salva pagina con nome…”).
Se desideri utilizzare wget per scaricare una singola pagina, esegui il comando seguente:
wget -pk https://example.com Ciò omette le opzioni che dicono a wget di scaricare ricorsivamente le pagine e di regolare estensioni e collegamenti.
Download di siti Web per l’accesso offline
Il download di un intero sito è utile in molte situazioni, tra cui:
- Backup del tuo blog nel caso in cui il tuo host web si spenga
- Archiviazione di pagine web per scopi storici (come salvare il sito web di un membro della famiglia per il tuo progetto genealogico)
- Salvataggio di pagine Web e tutto ciò che contengono da leggere mentre sei in vacanza (non ovunque c’è ancora una connessione internet decente!)
Come accedi al sito che hai scaricato?
Un sito scaricato utilizzando wget verrà salvato come file HTML sul tuo PC. Se hai utilizzato WSL, dovrai farlo accedere ai file WSL tramite Esplora file.
Nel nostro esempio, il file si trovava in “wsl.localhostUbuntu-22.04homeexample” poiché abbiamo utilizzato Ubuntu 22.04 e il nostro nome utente Linux è “example”. Wget salverà le cartelle in qualsiasi directory attiva nel Terminale quando esegui il comando, a meno che tu non specifichi manualmente un altro percorso.
I file HTML possono essere aperti da qualsiasi browser, anche se ci sono anche altri programmi che possono farlo, se preferisci uno di questi.
Altri strumenti per scaricare contenuti Web per l’utilizzo offline
Sebbene wget sia uno dei modi più comuni per scaricare contenuto Web, ce ne sono altri che puoi utilizzare se hai requisiti diversi o non vuoi gestire la riga di comando.
- cURL è un altro strumento gratuito da riga di comando che può essere utilizzato per scaricare interi siti Web
- HTTrack è uno strumento Windows che fornisce un’interfaccia grafica per scaricare interi siti, se non ti senti a tuo agio nell’usare la riga di comando
- Cyotek WebCopy fornisce anche una GUI per scaricare interi siti Web e include molte opzioni configurabili, nonché regole per escludere il download dei contenuti
- Raschiante E Bella zuppa sono librerie Python che possono scaricare interi siti, ma sono destinate agli sviluppatori Python
- SitoSucker fornisce un’interfaccia grafica intuitiva per scaricare siti Web per MacOS ed è disponibile nell’App Store
- Webscrapbook è un’estensione per Firefox o Chrome che può archiviare interi siti per una lettura successiva e consente anche di annotare e modificare le pagine
- Esploratore offline è potente e potrebbe essere in grado di scaricare contenuti di siti Web laddove altri strumenti hanno difficoltà, ma è costoso
Qualunque sia il motivo per cui vuoi copiare un intero sito web sul tuo computer, ora sai come farlo! Se hai intenzione di leggere qualche libro offline, a un eReader decente è un must assoluto.