Pregunta ¿Cómo archivas un sitio web completo para verlo sin conexión?


De hecho, hemos copiado copias estáticas / archivadas de nuestros sitios web asp.net para clientes muchas veces. Hemos usado WebZip hasta ahora, pero hemos tenido problemas interminables con bloqueos, páginas descargadas que no se han vuelto a vincular correctamente, etc.

Básicamente, necesitamos una aplicación que rastree y descargue copias estáticas de todo en nuestro sitio web asp.net (páginas, imágenes, documentos, CSS, etc.) y luego procese las páginas descargadas para que se puedan examinar localmente sin una conexión a Internet (deshacerse de de direcciones URL absolutas en enlaces, etc.). Mientras más idiota sea, mejor. Esto parece un proceso bastante común y (relativamente) simple, pero he intentado algunas otras aplicaciones y no he quedado impresionado.

¿Alguien tiene un software de archivo que recomendaría? ¿Alguien tiene un proceso realmente simple que compartirían?


48
2018-02-11 21:22


origen


Respuestas:


En Windows, puedes mirar HTTrack. Es muy configurable y le permite configurar la velocidad de las descargas. Pero puede simplemente señalarlo en un sitio web y ejecutarlo sin configuración alguna.

En mi experiencia, ha sido una herramienta realmente buena y funciona bien. Algunas de las cosas que me gustan de HTTrack son:

  • Licencia de código abierto
  • Currículums detenidos descargas
  • Puede actualizar un archivo existente
  • Puede configurarlo para que no sea agresivo cuando se descarga, por lo que no pierde el ancho de banda y el ancho de banda del sitio.

35
2018-02-11 21:34



Podrías usar wget:

wget -m -k -K -E http://url/of/web/site

63
2018-02-11 21:25



los Wayback Machine Downloader por hartador es simple y rápido.

Instalar a través de Ruby, luego ejecutar con el dominio deseado y sello de tiempo opcional de la Archivo de Internet.

sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000

5
2017-11-02 01:07



yo suelo Cangrejo azul en OSX y WebCopier en Windows.


4
2018-02-11 21:26



wget -r -k

... e investigar el resto de las opciones. Espero que hayas seguido estas pautas:http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html para que todos sus recursos estén seguros con las solicitudes GET.


2
2018-02-11 21:26



Solo uso: wget -m <url>.


1
2018-02-11 21:25



Si sus clientes están archivando por problemas de cumplimiento, debe asegurarse de que el contenido pueda ser autenticado. Las opciones enumeradas están bien para una simple visualización, pero no son legalmente admisibles. En ese caso, está buscando marcas de tiempo y firmas digitales. Mucho más complicado si lo haces tú mismo. Sugeriría un servicio como PageFreezer.


1
2018-03-09 18:23



He estado usando HTTrack durante varios años. Maneja todos los enlaces entre páginas, etc. bien. Mi única queja es que no he encontrado una buena manera de mantenerlo limitado a un subsitio muy bien. Por ejemplo, si hay un sitio www.foo.com/steve que quiero archivar, es probable que siga los enlaces a www.foo.com/rowe y archive eso también. De lo contrario, es genial. Altamente configurable y confiable.


0
2018-02-11 21:58