Este comando es muy útil para descargas webs, ficheros y ejecutar tareas de mantenimiento. Aquí explicamos algunos de ellos.
wget -r -p http://www.keopx.net
El parámetro -p le indica a wget que incluya todo (imágenes también), de modo que todos los ficheros HTML y demás de la web serán descargados.
Para poder omitir en robot.txt que nos puede impedir acceder a varias paginas escribimos lo siguiente:
wget -r -p -e robots=off http://www.keopx.net
Muchos sitios web no dejaran que te descargues todo lo que hay en ellos, así que podremos decirle que somos un navegador convencional:
wget -r -p -e robots=off -U mozilla http://www.keopx.net
Aún así hay administradores que han puesto un límite a este tipo de descargas y cuando ven que hay una transferencia masiva de archivos la limitan, pero para engañar de nuevo a este comportamiento simplemente podemos establecer ciertas pausas entre la descarga de información:
wget --random-wait -r -p -e robots=off -U mozilla http://www.keopx.net
Existen otros parámetros útiles de wget, como por ejemplo “–limit-rate=20k”, que limitará la tasa de descarga para que este proceso no se coma todo nuestro ancho de banda. El parámetro “-b” continuará con la descarga incluso si nos salimos de la sesión (útil para realizar ese proceso a través de máquinas remotas), y por último la opción “-o $HOME/wget_log.txt” permitirá mantener un registro de las transferencias para comprobar posibles errrores.
Referencias:
http://jamsubuntu.blogspot.com/2009/02/using-wget-to-download-entire-websites.html
Comentarios