La web profunda y las dinámicas de la información

Este escrito es una continuación del artículo “¿Qué es Anonymous?”, publicado en Le Monde diplomatique, edición Colombia Nº 174, febrero 2018. Se trata de un estudio sobre la sociedad del conocimiento y las políticas en torno al derecho a la información, que pasa por el conocimiento de redes y lenguajes informáticos.

Vivimos una auténtica revolución en varios órdenes en el mundo. Actualmente, como manifestación de un proceso acelerado y dinámico, en donde un cuerpo aún no termina de desplegar todo su potencial y sobre él emana otro, vivimos la tercera revolución industrial, la cuarta revolución industrial, la segunda revolución científica, la tercera revolución científica. La información, el procesamiento de la misma, y la computación se encuentran entre las tres más radicales revoluciones en la historia de la humanidad, después de la invención de la agricultura y de la imprenta. Sólo que la revolución de la información es demasiado reciente y apenas se están llevando a cabo las primeras reflexiones sobre el fenómeno.

Por primera vez la información y el conocimiento dejan de ser un bien privado, para convertirse en un bien común para toda la humanidad. Aunque aún quedan los rezagos de quienes pretenden controlar la educación, la información, el conocimiento. Por ejemplo, la producción de patentes, el registro del conocimiento, los debates en torno a la propiedad intelectual. Todo se gatilla a partir de internet.

Más allá de los rastros primeros de internet hasta Arpanet, como un proyecto militar, Internet fue originariamente la obra del Cern (Centro Europeo de Investigación Nuclear), y puede decirse que nace en los años 1980, específicamente con la creación de la WWW (World Wide Web), la que para 1991 es una realidad social y cultural. Razonablemente, allí comienza la sociedad de la información, y con ella, una inflexión fundamental en la historia de la humanidad.

El mundo de Internet

Primero nace el computador, y luego la computación, la que en general es el trabajo con bases de datos y procesamiento de información. Es lo que comienza a suceder en los años 1980/1990 con el tránsito de los computadores (desktop) hacia la World Wide Web.
Internet es simple y llanamente el televisor, si cabe, en el cual pueden verse canales, programas, series, documentales, noticias, por ejemplo. Lo importante, lo inteligente de internet es la web, y hasta la fecha se han desarrollado tres niveles de la misma, así:

• La web 1.0: Es básicamente un sistema de emisión de información, con información estática que está lista sólo para ser leída. Se crean las primeras, y posteriormente numerosas páginas personales (Home pages), generalmente privadas, y aparecen los primeros directorios como motores de búsqueda. La tecnología usada es básicamente Html (Hypertext Markpup Language), que es el lenguaje estándar para crear páginas web y aplicaciones, y FTP (File Transfer Protocol), que es el protocolo estándar de red para la transferencia de archivos. Grosso modo, cubre los años 1990 al 2000.
• La web 2.0: Es una red interactiva, con información dinámica, cuyo foco ya no es una organización determinada sino toda la comunidad (la sociedad), caracterizada por dinámicas en las que se comparten noticias, opiniones, gustos, y demás. Es en este momento que nace Wikipedia y todas las wikis; aparecen Java, Flash y XML (Extensible Markup Language), que es un lenguaje que crea códigos para documentos que permiten que tanto los humanos como las máquinas las puedan leer, y muchos otros lenguajes y protocolos. Todas las redes sociales habituales son hijas de la web 2.0, y proliferan por doquier los blogs de toda índole. Puede decirse que abarca los años 2000 a 2010, en términos generales.

• La web 3.0: Técnicamente, es el momento en el se imponen las tablets y los teléfonos inteligentes, así como los portátiles sobre los computadores de escritorio. Se transmite en vivo toda clase de eventos, surgen las aplicaciones inteligentes y, de manera significativa, nace la web semántica, para designar el uso natural de búsqueda por los usuarios de la web, en la que humanos y máquinas trabajan en colaboración mutua. En términos generales, abarca el período 2010 al 2020, y aparecen las primeras bases de datos semánticas. Las tecnologías de base son RF, Rdfs y OWL, que son básicamente modelos de datos de metadatos, y el trabajo con ontologías, que son la forma como se elaboran y se trabajan con taxonomías y redes de clasificación definiendo estructuras de conocimiento en varios dominios.

En los días que cursan nos encontramos en la discusión acerca de la futura web 4.0, que está prevista para ser una realidad a partir de los años 2020, aproximadamente. Consistirá, en lo fundamental, de una web que muestra información (que se le solicita) a una web que ofrece soluciones (como pedir cita al médico, buscar el mejor colegio, reservar un tiquete para un evento, y demás).

Asimismo, desde ya se trabaja en la web 5.0, que ha sido llamada como la web emocional, consistente en la interacción entre humanos y computadoras.

De manera puntual, las anteriores webs han sido llamadas de la siguiente manera: internet (web) de contenidos, internet de comunicaciones, internet de contextos, internet de las cosas (IoT) e internet de pensamientos. Los ritmos son verdaderamente acelerados. Esta es, sin la menor duda, una de las más agudas fronteras del conocimiento.

La web profunda

Como muchas otras realizaciones de los seres humanos, la web profunda nace sin ninguna conciencia de lo que sucedería posteriormente. La idea surge a partir de un artículo publicado por tres científicos del Laboratorio de Investigación Naval de los E.U., en el que proponían esconder las rutas de información, de tal suerte que sencillamente los usuarios de internet pueden acceder a información sin revelar su identidad, ya sea en ningún servidor de las web o en los routers con los que navegan.
Como resultado, la web profunda (deep web, en inglés) nace en Octubre del 2003. La motivación inicial era poner en marcha un mecanismo de seguridad en el sentido de que la policía podía obtener información de delatores sin que estos corrieran peligro, o explorar sitios de la web sin que se supiera que estaban siendo espiados, por ejemplo.

¿Qué es la web profunda?

Llamada en ocasiones como la web oscura, la web oculta, la web invisible, el nombre genérico es el de “web profunda”. Se trata de una frontera, ampliamente inexplorada, de información. La web profunda es una capa de internet mediante la cual es posible buscar información manteniendo el anonimato, algo que no es posible en la superficie de la web. La inmensa mayoría de la información existente en internet se encuentra en la capa profunda (a veces llamada igualmente como internet escondido); se ha calculado que internet (superficial) constituye alrededor del 5 por ciento de la web. Cerca del 95 restante es web profunda.

Existen dos mitos acerca de internet, pero ambos coinciden en una misma afirmación. Al nivel superficial (WWW), existe la creencia de que la mayoría de la información es superficial, si no, equívoca. Es notablemente la afirmación en la comunidad de médicos o de profesores, acerca del “doctor Google”. Aún prevalece la idea que Wikipedia es espuria, y la mayoría de la información allí contenida carece de validación técnica, por no decir científica.

En el mismo sentido, existe el mito según el cual la mayoría de información en la web profunda es acerca del crimen organizado, mucho vejamen y cosas semejantes.

Pues bien, lo cierto es que en la web hay una amplia corriente de verdades falsas (“post-verdades”), mucha opinión (“opinionitis”), y también que una buena parte de gente mayor de edad es escéptica, crítica y negativa acerca de las redes sociales, internet y toda la sociedad de la información digital (U. Eco con sus críticas a las redes sociales e internet era un buen ejemplo de ello). Es verdad que hay mucha pornografía (páginas xxx), y mucha banalidad. Pero los estudios demuestran que esta es la amplia minoría de la información en la web.

Asimismo, es verdad que en la web profunda hay mucha información propia del mundo del crimen y la oscuridad, y que pueden encontrarse allí prácticamente lo que se desee en el mundo, incluyendo lo más escabroso posible. Sin embargo, sorpresivamente, los estudios evidencian que la mayoría de la información en la profunda puede clasificarse, en escala descendente, de la siguiente manera: empresas y economía (business and economy), computadores e internet (ci), educación (ed), sociedad y cultura (sc), referencias (re), noticias y medios (nm), ciencia (si), salud (he), regional (rg) (estos tres en el mismo nivel), gobierno (go), recreación y deportes (rs), artes y humanidades (ah), y finalmente entretenimiento (en). Al final, en una categoría, otros (ot).

La superficie de la web está vinculada por miles de millones de páginas estáticas Html, pero una cantidad significativamente mayor de información con bases de datos que no son accesibles desde los motores habituales de búsqueda. Para la web profunda hay que acceder a través de otros motores de búsqueda, tales como Tor, The WWW Virtual Library, Surfwax, IceRocket, Stumpedia, Freebase, TechDeepWeb, Onion.City, Onion.to, Not Evil, SilkRoad, Memex Deep Web Search Engine, Disconnect, y varios otros. Sin embargo, hay que advertir que algunos de estos motores no garantizan totalmente el anonimato. Se requiere una experticia y un cierto conocimiento para saber cuáles son enteramente confiables.

Bajar e instalar alguno de estos motores de búsqueda es una operación que toma menos de tres minutos.

¿Qué hay en la web profunda?

Contra todas las apariencias y mitos, en ella encontramos una fuente maravillosa de información. Esto es, una fuente para crear, buscar y procesar información. En este nivel, principalmente por razones de seguridad, se encuentran la mayoría de repositorios, los informes científicos (no simplemente los artículos y revistas), los historiales médicos, la información sobre suscripciones, los recursos gubernamentales y de estado en general, en fin, los documentos legales.

Naturalmente, también se encuentran allí el tráfico de drogas, información ilegal en toda la línea de la palabra, el registro y memoria de todas las comunicaciones privadas por cualquier canal, en fin, incluso las protestas políticas.

Prácticamente cualquier operación es posible en la web profunda, desde conseguir pasaporte de cualquier país, asesinos a sueldo, libros prohibidos, informes clasificados, intercambiar mercancías, y comprar cualquier mercancía que se desee, por ejemplo.

Pero hay que saber navegar por la web profunda. Si en el nivel superficial un link conduce a otro, y este a otro más, de suerte que alguien que busca X termina finalmente encontrándose con Y, por ejemplo, en la navegación por la web profunda es indispensable saber qué se busca, pues de lo contrario resulta terriblemente aburrida, particularmente para quienes esperan links e hiperlinks como sucede con Google, Amazon, Yahoo, Bing o Safari, por ejemplo. La defensa del anonimato es indispensable, con todo y los riesgos y juegos que implica. Es aconsejable que quien se introduzca por esta ruta por primera vez haya idealmente adquirido antes una mentalidad de hacker. La mentalidad que, hoy por hoy, es la mentalidad específica de la sociedad del conocimiento. Mentalidad de hacker con valores morales (¡y políticos!) firmes.

De manera específica, una mentalidad tal hace referencia a cualquier cualidad menos a la pereza mental; en consecuencia, el espíritu crítico y la constancia son elementos propios que caracterizan a quienes no solamente son pasivos ante internet, sino, mejor aún, quienes son activos frente a la información. De manera filosófica, el hacker forma parte del hacktivismo, esto es, ese movimiento que se define por no dejarse bloquear por información secreta, clasificada, cerrada, y que cree que la información es un bien para la humanidad y que las sociedades tienen derecho a estar informadas, a saber y a tomar decisiones consecuentemente.

Son muchas las acciones posibles y reales de los hackers, y ese sería el objeto de un texto aparte.

El hecho es que, análogo a lo que sucede en la web superficial, en la web profunda la información crece a ritmos muy acelerados, y las fuentes de datos se multiplican igualmente. En consecuencia, son numerosos los estudios destinados a mejorar la cualidad de la información en la web oculta.

Tipos de información, tipos de procesamiento de datos

Los motores de búsqueda de internet (Google, Bing, etc.) sólo pueden identificar páginas estáticas (Html) y no páginas dinámicas de la web, que son justamente las bases de datos de la web profunda. Existen dos tipos de datos en esta web: estructurados y no estructurados. Aquellos se encuentran en bases de datos que han sido elaboradas por diversas organizaciones alrededor del mundo. Los datos no-estructurados sólo se puede acceder a ellos a través del link *.onion, por ejemplo.

En el acceso a la web profunda, los usuarios deben someter búsquedas de información a través de interfaces de búsqueda, a fin de acceder a la información existente o disponible. A la solicitud de una información o datos, el usuario recibe en respuesta un gran número de páginas. La minería de datos no funciona en los niveles de la web oculta. En la actualidad, la investigación sobre internet tiene como uno de sus vértices la construcción de mecanismos interactivos o verticales en la web profunda.

Los E.U. han desarrollado un proyecto llamado Memex, desarrollado por Darpa (Defense Advanced Research Projects Agency), que busca quebrar el anonimato de los usuarios de la web profunda, específicamente la de quienes usan el motor TOR.

Mientras que en la internet superficial los datos de búsqueda están disponibles mediante URLs (Uniform Resource Locator; sencillamente, una dirección en internet), en la web profunda los datos están guardados en interfaces de búsqueda. Cada vez que se busca alguna información hay que empezar desde cero, dado el sistema de organización de la web profunda.

De manera puntal, la información en la web superficial se busca (crawling); en la web profunda esa información se le solicita a las bases de datos (query). Dos formas de procesamiento perfectamente distintas. Así, las solicitudes en la web profunda son estructuradas y no-estructuradas.

La web profunda, acción social y acción política

El uso de internet está perfectamente asociado a que la personalidad privada y la personalidad pública estén totalmente asociadas. No existe ninguna distinción entre privacidad e imagen pública, o entre intimidad e información pública. Una manera ingenua de acercarse al tema es a través del habeas data, pero la verdad es que las legislaciones al respecto presentan muchos vacíos. Los escándalos recientes de Google Analytics en Inglaterra con Facebook ponen en evidencia un muy serio problema.

Pues bien, la web profunda existe para que sea posible una separación entre la personalidad privada y la búsqueda y exploración de información. Nada de lo que se haga en la web profunda puede estar asociado con la identidad de cada quien en el mundo real, a menos que la persona desee lo contrario. La defensa de la privacidad no es un asunto menor, y la verdad es que mediante el Machine Learning, el Deep Learning, y numerosos algoritmos sofisticados, las grandes empresas de la información –Amazon, YouTube, Google, Facebook y Apple– (a los que recientemente hay que sumar, entre otros, a Samsung, Huawei, Microsoft, IBM; Sony y Panasonic), acumulan información de los ciudadanos cuyo destino jamás es conocido. No hay que olvidar que el Departamento de Estado de los E.U. declaró a Facebook y a Google como empresas de interés estratégico nacional. Sin ambages, la pretensión de las corporaciones y los estados es la de acumular, procesar y usar a su antojo la información que los ciudadanos libremente ponen al descubierto.

Hay un problema de lado y lado, como se aprecia.

La lucha civil, política y ética es hoy en día la lucha por la libertad de la información, por el respeto a la intimidad y la individualidad, pero como un asunto común, público, y no solamente pertinente para cada quien.

La web profunda es el canal a través del cual se ponen de manifiesto documentos sobre la injusticia en determinados países o prácticas nefastas por parte de algunas compañías. Siempre puede suceder que el trabajo con información llegue a afectar aquello que se denomina “seguridad nacional”. La historia de Anonymous, Wiileaks y muchos otros movimientos es ilustrativa al respecto.

Hay gobiernos que prohíben el uso de Facebook o de Twitter, por ejemplo, para divulgar protestas sociales. El uso entonces de la web profunda resulta vital para acciones de denuncia, información, educación y organización.

Existe una enorme cantidad de datos y de información en internet. Vivimos, literalmente, una era de luz. Pero debe ser posible acceder y procesar dicha información. Mayor información se traduce en mayores grados de libertad, y menos información da lugar a injusticias, inequidades, asimetrías peligrosas en la sociedad. La libertad y las garantías de vida son directamente proporcionales a la información en general que se dispone.

En condiciones de una sociedad, un Estado y una economía y sistemas militares y de policía panópticos, el anonimato garantiza el derecho a la libre opinión, la libertad de acción (digital), la libertad de decisiones y organización. Las consecuencias de la web profunda no son pocas.
Los movimientos sociales y políticos deben poder conocer lo que es la web profunda, y saber usarla. Deben poder establecer conexiones entre sí, cuidando la seguridad de las organizaciones y de sus miembros. La acción colectiva es hoy por hoy acción colectiva con información, conocimiento y mucha educación y ciencia. La dialéctica entre la web superficial y la web profunda debe ser de tal modo que se haga un uso óptimo de la información. Sin más, las organizaciones sociales y políticas, si se ponen al día en materia de conocimiento, deben poder conocer y trabajar con la web profunda. Es un asunto básico de inteligencia organizacional.

En dos palabras, a mayor y mejor información, más libertad, autonomía y vida. En eso exactamente consiste todo el debate en torno al deseo, de unos, de controlar internet; y de otros, por hacer común la información existente. Acaso la expresión puntual del problema, se denomina: democracia digital.

Bibliografía (selecta)

Ehney, R., Shorter, J. D., (2016). “Deep web, dark, web, invisible web and the post isis world”, en: Issues in Information Systems, Volume 17, Issue IV, pp. 36 – 41
Grossman, L., Newton-Small, J. Roy, J., Stampler, L. (2013). “The Deep Web”, en: Time International (South Pacific Edition), Noviembre 11, 08180628, Vol. 182, Fascículo 20
He, B., Patel, M., Zhang, Z., y Chang, K Ch.-Ch., (2007). “Accessing the Deep Web. Attempting to locate and quantify material on the Web that is hidden from typical search engines”, en: Communications of the ACM, Mayo, vol. 50, No. 5, pp. 95-101
Huang Q., Li, Q., Li, H., Yan, Z., (2012). “An Approach to Incremental Deep Web Crawling Based on Incremental Harvest Model”, en: Procedia Engineering 29, pp. 1081 – 1087
Tapia, M. G., Shorter, J., (2015). “Into the depths of the internet: the deep web”, en: Issues in Information Systems, Volume 16, Issue III, pp. 230 – 237

*Investigador. Profesor universitario.