Pasar al contenido principal
www.keopx.net

Navegación principal

  • Inicio
  • Talks
  • Freelance Drupal Bilbao
  • Acerca de Keopx
  • Contacto
Menú de cuenta de usuario
  • Iniciar sesión

Sobrescribir enlaces de ayuda a la navegación

  1. Inicio

Descarga de paginas web completas con wget

By keopx, 29 Marzo, 2009

Este comando es muy útil para descargas webs, ficheros y ejecutar tareas de mantenimiento. Aquí explicamos algunos de ellos.

wget -r -p http://www.keopx.net

El parámetro -p le indica a wget que incluya todo (imágenes también), de modo que todos los ficheros HTML y demás de la web serán descargados.

Para poder omitir en robot.txt que nos puede impedir acceder a varias paginas escribimos lo siguiente:

wget -r -p -e robots=off http://www.keopx.net

Muchos sitios web no dejaran que te descargues todo lo que hay en ellos, así que podremos decirle que somos un navegador convencional:

wget -r -p -e robots=off -U mozilla http://www.keopx.net

Aún así hay administradores que han puesto un límite a este tipo de descargas y cuando ven que hay una transferencia masiva de archivos la limitan, pero para engañar de nuevo a este comportamiento simplemente podemos establecer ciertas pausas entre la descarga de información:

wget --random-wait -r -p -e robots=off -U mozilla http://www.keopx.net

Existen otros parámetros útiles de wget, como por ejemplo “–limit-rate=20k”, que limitará la tasa de descarga para que este proceso no se coma todo nuestro ancho de banda. El parámetro “-b” continuará con la descarga incluso si nos salimos de la sesión (útil para realizar ese proceso a través de máquinas remotas), y por último la opción “-o $HOME/wget_log.txt” permitirá mantener un registro de las transferencias para comprobar posibles errrores.

Referencias:

http://jamsubuntu.blogspot.com/2009/02/using-wget-to-download-entire-websites.html

Comentarios

El contenido de este campo se mantiene privado y no se mostrará públicamente.
Acerca de formatos de texto

HTML Restringido

  • Etiquetas HTML permitidas: <a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type> <li> <dl> <dt> <dd> <h2 id> <h3 id> <h4 id> <h5 id> <h6 id>
  • Saltos automáticos de líneas y de párrafos.
  • Las direcciones de correos electrónicos y páginas web se convierten en enlaces automáticamente.

Forcontu Master in Drupal 9

DrupalAssoc member

DrupalCampSpain2022: Introducción al desarrollo de módulos en Drupal 9

Seville Drupal Developer Days Individual Sponsor - 2017

I am speaker DrupalCamp Alicante 2018

I am speaker DrupalCamp Madrid 2017

I am speaker DrupalCamp Valencia 2014

I am Rules Ruler

Sponsored by

Isarea

Soy Ruben Egiguren a.k.a. keopx, actualmente soy freelance experto en Drupal de Bilbao

  • Reinicializar su contraseña
RSS feed
Powered by www.keopx.net