El HTML predomina en la Web catalana
20-12-2007
El proyecto PADICAT (Patrimonio Digital de Cataluña), que lidera la Biblioteca de Catalunya con la colaboración del Centre de Supercomputació de Catalunya, ha realizado un exhaustivo análisis de los formatos y tecnología utilitzada en la Web catalana, en base a una muestra de 1.000 páginas web de toda índole.
La radiografía de estas 1.000 páginas web incluidas en el repositorio digital del proyecto permite afirmar que como media, cada página web de Cataluña ocupa 1,33 GB de volumen y contiene una media de 33.942 archivos informáticos. Nunca antes se había analizado la composiciónde la Web catalana con este significativo muestreo.
Webs incluidas en el PADICAT/muestra del estudio | 1.004 |
---|---|
Capturas de diversas ediciones de cada web | 2.720 |
Número total de archivos informáticos | 34.077.807 |
Media de archivos de cada página web | 33.942 |
Volumen total del repositorio PADICAT | 1.339,24 GB |
Media de volumen de cada página web | 1,33 GB |
Por otra parte, se confirma en el estudio que los formatos más habituales en la Internet catalana son el html (71,69%), jpeg (7,09%), gif (2,45%), y pdf (1,32%), seguidos de otros tipos menos habituales. Para los responsables del proyecto, la presencia mayoritaria de formatos tan populares como estos, que suman el 82,5% del total de formatos existentes en la Web catalana, permite dibujar un futuro positivo por lo que a la preservación de recursos digitales en Internet.
Formato | Archivos | Volumen (GB) | % Archivos | % Volumen |
---|---|---|---|---|
text/html | 24.429.679 | 592,45 | 71,69% | 55,83% |
image/jpg | 2.416.055 | 123,81 | 7,09% | 11,67% |
image/gif | 834.019 | 6,79 | 2,45% | 0,64% |
application/pdf | 449.983 | 167,34 | 1,32% | 15,77% |
no-type | 75.070 | 0,16 | 0,22% | 0,02% |
image/png | 72.905 | 1,51 | 0,21% | 0,14% |
application/x-shockwave- flash | 68.379 | 5,62 | 0,20% | 0,53% |
application/msword | 42.150 | 5,31 | 0,12% | 0,50% |
text/plain | 39.962 | 15,77 | 0,12% | 1,49% |
text/css | 35.668 | 0,17 | 0,10% | 0,02% |
text/xml | 35.583 | 0,46 | 0,10% | 0,04% |
application/x-javascript | 23.882 | 0,18 | 0,07% | 0,02% |
image/pjpeg | 14.514 | 0,38 | 0,04% | 0,04% |
audio/mpeg | 10.319 | 41,1 | 0,03% | 3,87% |
application/atom+xml | 10.264 | 0,05 | 0,03% | 0,00% |
image/bmp | 10.202 | 2,23 | 0,03% | 0,21% |
audio/x-ms-wma | 8.869 | 25,78 | 0,03% | 2,43% |
application/download | 8.122 | 0,3 | 0,02% | 0,03% |
application/zip | 5.730 | 11,49 | 0,02% | 1,08% |
application/xml | 5.396 | 0,05 | 0,02% | 0,00% |
application/vnd.ms-excel | 5.222 | 0,55 | 0,02% | 0,05% |
La Biblioteca de Catalunya, que forma parte del International Internet Preservation Consortium junto a instituciones, tiene con el proyecto PADICAT el objetivo de preservar las páginas web de Cataluña, para garantizar su acceso permanente. el proyecto cuenta con la adhesión de 287 instituciones de todo tipo.