¿Por qué algunas páginas web desaparecen de Internet? ¿Es normal que algunos sitios dejen de existir de un día para el otro? Un informe de Pew Research Center arrojó luz sobre este tema.
Internet es un amplio repositorio de la vida moderna con cientos de miles de millones de páginas web indexadas. Pero, ¿sabías que el 38% de los sitios que existían en 2013 hoy ya no son accesibles?
Pew Research Center realizó una investigación y puso en evidencia lo efímero que puede resultar el contenido en línea: una cuarta parte de todas las páginas web que existieron entre 2013 y 2023 hoy ya no está disponible. En la mayoría de los casos esto se debe a que fue eliminada o retirada de un sitio que aún funciona.
Tras analizar enlaces de sitios gubernamentales y de noticias, el informe encontró que el 23% de las páginas web de noticias contienen por lo menos un enlace roto, al igual que el 21% de los sitios gubernamentales. Los sitios de noticias con un alto nivel de tráfico y aquellos con menos movimientos son igualmente propensos a contener este tipo de enlaces. Además, las páginas web de gobiernos locales de ciudades son especialmente propensas a tener links rotos.
¿Qué es un sitio web inaccesible?
Que una página web ya no esté disponible puede significar tres cosas diferentes:
- La página ya no se encuentra en su servidor de alojamiento o el servidor en sí dejó de existir. Generalmente, quien visite este tipo de sitio encontrará alguna variante del típico “error 404 No Encontrado”.
- La dirección de la página existe, pero su contenido fue cambiado y difiere de lo que era originalmente.
- La página existe, pero ciertos usuarios con ceguera u otras discapacidades visuales podrían encontrarla difícil de leer.
Para su investigación, Pew Research Center se basó en la primera definición y concibió a la inaccesibilidad de los sitios web como una página que ya no se encuentra en su servidor. En el estudio, recolectaron una muestra aleatoria de poco menos de 1 millón de páginas web de los archivos de Common Crawl, un servicio de archivo de Internet que periódicamente recopila instantáneas de la web en diferentes momentos. Se muestrearon páginas de cada año desde 2013 hasta 2023 (aproximadamente 90,000 por año) y se verificó si aún existen.
El 25% de todas las páginas recolectadas entre 2013 y 2023 ya no eran accesibles en octubre de 2023. Esta cifra es la suma de dos tipos diferentes de páginas rotas: el 16% son individualmente inaccesibles, pero provienen de un dominio raíz que sigue funcionando y el otro 9% es inaccesible porque su dominio raíz ya no funciona.
De las páginas recolectadas de 2013, el 38% ya no estaba disponible en 2023, pero incluso para las de 2021 se estima que una de cada cinco ya no contaba con acceso solo dos años después.
Dos ejemplos claros
Pew Research Center estudió enlaces de referencia de Wikipedia, la desaparición de tuits, enlaces de sitios web gubernamentales y enlaces de sitios de noticias. Nos centraremos en sus resultados en estos dos últimos casos.
Enlaces en sitios web gubernamentales
El informe muestreó 500.000 páginas de sitios web gubernamentales basándose en archivos de marzo y abril de 2023 de Common Crawl incluyendo una mezcla de diferentes niveles de gobierno (federal, estatal, local y otros). Hallaron cada enlace en cada página y continuaron una selección aleatoria de esos enlaces para ver si los sitios a las que se referían aún existían.
En los sitios web gubernamentales analizados había un total de 42 millones de enlaces. La gran mayoría de esos enlaces (86%) eran internos, es decir, enlazan a otra página en el mismo sitio web. Alrededor de tres cuartos de las páginas web gubernamentales contenían al menos un enlace en la página.
Como resultados importantes, la investigación concluyó que la gran mayoría de los enlaces conducen a páginas HTTP seguras (con URL que comienzan con “https://”), el 6% conduce a archivos estáticos como documentos PDF, el 16% ahora redirige a una URL diferente de la que originalmente señalaba y el 6% apuntaba a páginas que ya no eran accesibles.
En general, el 21% de todas las páginas web gubernamentales contenían al menos un enlace roto. En todos los niveles de gobierno analizados existían links rotos en al menos el 14% de las páginas; las páginas de gobiernos municipales tenían las tasas más altas.
Enlaces en sitios web de noticias
Para este análisis se tomó una muestra de 500.000 páginas de 2.063 sitios web clasificados como “noticias/información” por la firma de métricas de audiencia comScore. Las mismas se recopilaron en marzo y abril de 2023 de Common Crawl.
En los sitios de noticias muestreados, esta colección contenía más de 14 millones de enlaces que apuntaban a sitios web externos. El 94% de estas páginas contenían al menos un enlace externo. La típica contenía 20 enlaces y el 10% contaba con 56.
Al igual que en los sitios gubernamentales, la gran mayoría de estos enlaces llevan a páginas HTTP seguras. El estudio arrojó que alrededor del 12% de los enlaces en estos sitios de noticias apuntaban a archivos estáticos como documentos PDF, y el 32% redirigía a una URL diferente de la que originalmente se enlazaba. Al rastrear estos enlaces se llegó a la conclusión que el 5% de todos los enlaces ya no son accesibles. Además, el 23% de todas las páginas contenían al menos un enlace roto.
Los enlaces rotos son tan comunes en los sitios de noticias con mucho tráfico como en los de menos tráfico. El 25% de las páginas en sitios web de noticias con más tráfico contenían al menos un enlace roto, casi igual al 26% de los sitios con menos tráfico.
Este fenómeno pone en evidencia la fragilidad de la información en línea y la necesidad de cuidar aquellos sitios que los usuarios valoran. El estudio pone el foco en la implementación de medidas para preservar el acceso a los recursos que, aunque temporales, son fundamentales para el entorno digital.
Ver el artículo original haciendo click acá.
Aún no hay comentarios