Soluciones Avanzadas No.35, 15 de Julio 96

 

Conexiones a Web con Caché


Alex López-Ortiz y Daniel M. Germán
alopez-o@neumann.uwaterloo.ca dmg@csg.uwaterloo.ca

Tres elefantes, se columpiaban,
sobre la tela de una araña,
y como veían, que resistía,
fueron a llamar a otro elefante

Internet demanda una gran cantidad de recursos de parte del usuario, ya sea éste una universidad o compañía con línea de fibra óptica conectada a la dorsal ( backbone) o el cibernauta desde su casa que require módem de por lo menos 9,600 bps y tiempo de conexión a un proveedor de acceso.

El uso eficiente de recursos es siempre recomendable y con las condiciones actuales del país se vuelve aún más importante. En números anteriores de Soluciones Avanzadas hemos mencionado a UUCP como una alternativa económica a Internet. UUCP permite, entre otras cosas, la reutilización de líneas y computadoras. Con UUCP, por ejemplo, la computadora de su secretaria y la línea telefónica de su despacho pueden ser reutilizadas a media noche cuando las tarifas telefónicas de larga distancia son más baratas para enviar y recibir correo electrónico a Internet.

En esta columna estudiamos el uso de servidores caché para World Wide Web. Si usted ha navegado Web usando Netscape ya ha usado un caché. Dicho navegador almacena de forma automática en el disco duro y en la memoria de su computadora una copia de las páginas más recientemente visitadas. De esta forma, al oprimir el botón back, Netscape recupera la información localmente, sin necesidad de establecer una conexión en Web. Este ahorro en tiempo de conexión es significativo. Sin embargo, este sistema no ahorra el tráfico generado por dos usuarios distintos en la misma computadora o red local ( LAN) que están accediendo a la misma página, ni siquiera aun cuando ésto ocurre simultáneamente. Por ello se han propuesto sistemas organizacionales, llamados apoderados (proxies), que almacenan páginas de uso frecuente. Estos sistemas han demostrado su valor en grandes organizaciones como lo son DEC, America OnLine y diversas universidades.

Difusión o Transmisión


El envío de mensajes es similar al de una conversación telefónica. El usuario desde su navegador (el cliente) establece una conexión a un servidor de Web y solicita un archivo en particular. Sin embargo, dado que este archivo es en general idéntico al que será visto por otro usuario desde la misma región sería más eficiente distribuir páginas de Web en forma semejante a artículos de Usenet o transmisión de programas de radio o televisión. Bajo dichos sistemas el contenido es distribuido localmente, independientemente de si el usurio prende su televisión o lee las noticias en el foro Usenet. Sin embargo, en el momento que el usuario decide acceder a la información, ésta se encuentra lista para ser recibida.

Como mencionamos, en Internet existen ya protocolos eficientes para la distribución de información única, tales como NNTP (utilizado por Usenet news) y Multicast (transmisiones de video). Un sistema de cacheo permite la transición de un sistema ineficiente de transmisión punto a punto a uno más económico de difusión regional.

Por ejemplo, sistemas de caché organizacional reducen el número de copias de un documento que viajan entre el servidor y el sistema compuerta ( gateway) de una organización dada. Sin embargo, para reducir la cantidad de copias en tránsito en Internet de un documento dado, se requiere el establecimiento de puntos de almacenamiento locales a todo lo largo de la trayectoria de envío, no sólo de la compuerta a los clientes.

El protocolo de transmisión NNTP de Usenet es igualmente ineficiente, pues envía copias de las noticias a todos los servidores registrados, independientemente de si hay lectores locales de dichas noticias o no. Así mismo, el enorme tamaño de Web haría imposible un sistema de difusión completo. Hoy día se estima que exiten entre 20 y 50 millones de páginas de Web, número que se duplica cada cuatro meses o menos.

La solución pues, es establecer un sistema distribuido de cachés, de la misma forma que Internet es un sistema distribuido de redes.

Por un lado, se deben establecer jerarquías nacionales de sistemas de caché, tales como la implementada en Nueva Zelandia, donde los proveedores de acceso a Internet y universidades se pueden registrar a una jerarquía de cachés. Bajo dicha jerarquía, una requisición por una página resulta primero en una búsqueda local en todos los cachés registrados, y sólo si ésta es fallida, se establece una conexión de larga distancia para obtener una página remota. Según reportes de Donald Neal [1], quien es el administrador de dicha jerarquía de cachés, los proveedores de acceso han obtenido el doble beneficio de reducir los gastos de conexión en las líneas internacionales (en Nueva Zelanda, en las líneas internacionales, no se paga por el tiempo de conexión, sino por la cantidad de tráfico enviado), así como tener usuarios más satisfechos, pues los tiempos de espera al bajar una página se reducen de igual forma (esto da la impresión .de que la línea es más rápida de lo que en realidad es).

Igualmente, se requieren sistemas automáticos de cacheo de páginas, iniciados por el servidor y que no requieran del establecimiento de consorcios y configuraciones especiales (como es el caso de Nueva Zelanda o el Reino Unido [2]). Este sistema de cachés funciona bajo el principio de que todo cliente acepta cachear aquellos documentos a los que ha accedido por un tiempo predetermindo hasta que se requiera el espacio en disco para otros propósitos [3,4].

De esta forma, si un usuario del IPN accede a la página A ubicada en Alaska y horas después un usuario de la UNAM solicita la misma página, el servidor en Alaska indica al usuario de la UNAM que la página A se encuentra disponible por las próximas 24 horas en el IPN y que la obtenga del sevidor local. Este sistema tiene además la ventaja que mientras más visitada sea una página, más servidores caché son creados. Así, una página que es raramente visitada no está cacheada por nadie, en tanto que las páginas populares son prontamente replicadas.

Dada la difícil situación económica del país y el naciente estado de las líneas dedicadas a Internet, debiera considerarse la creación de una jerarquía mexicana de cachés, siguiendo el ejemplo que Nueva Zelandia y el Reino Unido. Incluso, organizaciones que deseen optimizar el uso de sus recursos debieran analizar la posibilidad de instalar un caché local.

[1] Neal, D. "The Harvest Object Cache in New Zealand", Proceedings of the 5th International WWW Conference, Paris, 1996, pp. 14151430
[2]Smith, N.G., "The UK national Web cache The State of the Art", Proceedings of the 5th International WWW Conference pp. 14071414, Paris, 1996.
[3] M. Baentsch, G. Molter and P. Sturm, "Introducing application-level replication and naming into today's Web", Proceedings of the 5th International WWW Conference pp. 921929, Paris, 1996.
[4] López-Ortiz, A., y Germán, D.M., "A multicollaborative Push-Caching HTTP Protocol for the WWW", Poster Proceedings of the 5th International WWW Conference , Paris, 1996, pp. 14151430