
La vida de los enlaces en la web

Otro de mis temas de interés: la vida de los sitios web. En este caso hablan en Diving into Digital Ephemera: Identifying Defunct URLs in the Web Archives sobre los enlaces desaparecidos y un caso particular, los archivos de la web de la biblioteca del Congreso de EEUU.
Más concretamente, los documentos disponibles en el archivo cuyo documento original ya no está disponible.

Web archives exist to prevent this loss of information online. This summer, as a Junior Fellow with the Library of Congress Web Archiving Team, I have been investigating ways to identify content in the Library of Congress Web Archives that is no longer available on the live web. Identifying and communicating the status of URLs captured in a collection can not only demonstrate the value of web archives, it can also illustrate the impermanence of the internet more broadly.

La cosa es que verificar la existencia o no de estos documentos no es siempre una tarea fácil. Sin olvidarnos del tamaño del archivo, que hace que estemos hablando de un trabajo de tamaño importante.

The life cycle of a website, however, is unpredictable. Verifying the status of a site requires some level of manual investigation, which is time consuming and may be impractical when working with large collections. The Library of Congress, for example, has over 58,000 unique seed URLs in its collections.

Una posibilidad es utilizar el valor devuelto por el protocolo HTTP, mediante alguna herramienta. Los sitios devuelven una serie de códigos, con diversos significados.

When we access websites through a browser, the browser sends an HTTP request to a server hosting the website. An HTTP response code is a three-digit value that indicates the outcome of that request. A response code of 200, for example, means the request was successful and any code in the 400 and 500 range indicates an error. 300 codes indicate redirects and are not typically the final outcome of a request. It is also possible to receive an error message instead of a response code, which typically means the attempt to reach the remote web server was unsuccessful.

Y hay que tener en cuenta que un código correcto (200) sólo significa que el sitio web (el que sea) en la dirección indicada funciona correctamente. Esto significa que podría ser un contenido diferente del que originalmente se alojaba allí (esto sucede con cierta frecuencia con dominios abandonados, que algunos listos 'okupan' y utilizan para su propio beneficio).

For example, a 200 response just means that whatever website is hosted at the provided URL is online. URLs can change ownership, however, so the site that loads may not be the site that was originally there when the collection was created.

Por el contrario, un error de disponibilidad (404), sólo indica que hay un problema en ese momento, aunque puede ser que el fallo temporal, o que el recurso esté en otro sitio...

Likewise, a 404 error means that there is a problem with the URL as entered – in many cases, the content originally hosted at that URL is still online, just at a different location.

Interesante, las nuevas 'bibliotecas' no tienen garantizada la fecha de existencia ni su permanencia.

Puedes enterarte de las notas nuevas en: @reflexioneseir (Twitter), Reflexiones e Irreflexiones (Página de Facebook), Reflexiones e Irreflexiones (Canal de Telegram), fernand0 (en LinkedIn), @fernand0 (en Medium), Mastodon.

2022-09-06 17:34 | 0 Comentarios | In English, please | En PDF | Para enlazar # |
| Compartir/Share | por correo | en Twitter | en LinkedIn | en Facebook | en Google+ | en Delicious |

Referencias (TrackBacks)

URL de trackback de esta historia http://fernand0.blogalia.com//trackbacks/78591


<Febrero 2025
Lu Ma Mi Ju Vi Sa Do
          1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28