Web semántica

Web semántica

De TW

Este artículo ha sido reformateado automáticamente desde http://www.tejedoresdelweb.com/307/article-73066.html y su formato necesita ser revisado
Este artículo es bastante antiguo. Su contenido posiblemente está obsoleto y necesita ser actualizado.

La Web Semántica es la forma en que las páginas Web podrán ser leídas e interpretadas por programas computacionales.

Si imaginamos que toda la Web forma una especie de libro gigante que todos podemos leer, la Web semántica puede entenderse como una gran base de datos que todos los programas computacionales pueden procesar.

Tabla de contenidos

[ocultar]

Ejemplo

Tu banco puede entregar un estado de cuenta en línea y tu computador puede tener un calendario donde vas poniendo tus citas, pero ¿por qué no puedes hacer que los ingresos y egresos de tu cuenta aparezcan en tu calendario?. La información que se encuentra hoy en la Web, mayoritariamente está codificada en [propertyvalue-2926.html HTML], que es un lenguaje principalmente usado para describir la estructura y apariencia de un texto. Esto es muy útil y simple para crear documentos, pero estos documentos no son fácilmente procesables por programas computacionales.

Para encontrar información, los humanos usamos máquinas de búsqueda a las cuales se entregan algunas palabras y se les pide que entreguen páginas relevantes para esas palabras. Este proceso resulta tedioso en ocasiones, y muchas veces, simplemente no funciona. La causa principal es que hay demasiadas páginas, demasiada información, más de la que nosotros podemos leer y mucha más de la que podemos procesar adecuadamente. Resultaría interesante que los mismos computadores hicieran parte del proceso de búsqueda por nosotros, al menos evitándonos la parte tediosa y repetitiva.

¿Para qué sirve la Web Semántica?

En el artículo que inició el movimiento de la Web Semántica, publicado por Berners-Lee (creador de la Web), Hendler y Lassil en el año 2001 en la revista "Scientific American", se describe un caso interesante que ilustra la forma en que los computadores podrían ayudarnos en la Web. Supongamos que una persona desea contactar a un médico especialista para un tratamiento médico que se le ha prescrito. Podría pasarse horas buscando en las páginas amarillas o en Internet, o ... podría plantear su necesidad a un programa especializado. Este programa buscaría en la Web un médico suficientemente cercano, compatible con nuestro plan médico, que tuviera un horario de atención compatible con nuestra agenda, etc.

Lo interesante es que, actualmente, toda esta información (ubicación, horario de atención, planes médicos) es casi seguro que se encuentra en las páginas Web de los médicos. El problema es que la información está en un formato que los computadores no pueden entender. Cada página tiene su propio formato, su propio estilo de escritura, etc. Como humanos, podemos entender estas variantes, pero un programa computacional necesita una sintaxis más estricta para poder trabajar con los datos.

La gran visión es, entonces, que la mayoría de la información que hoy está disponible en páginas Web, y que pueda ser expresada en forma legible para un computador, eventualmente llegue a serlo. Esto no significa cambiar la forma en que la Web es hoy en día, sino agregar (sea en las mismas páginas o en otras nuevas) la información necesaria para que ciertas operaciones automáticas sean posibles. Por cierto, no se trata de conseguir que los programas entiendan realmente lo que leen, como sería en un proyecto de inteligencia artificial, sino que sea más precisa y rápida la forma en que los programas procesan la información.

Por ejemplo, cada cine podrá seguir teniendo una página Web con la gráfica y diagramación que quiera, pero proveerá además información legible por un programa. Esta información puede incluir, las películas que el cine exhibe y los horarios, de forma que sea fácil escribir buscadores automatizados que puedan recorrer las páginas de varios cines y entregarme una vista general de los horarios de todos, sin que yo tenga que ir a la página de cada una a buscar la información.

Implementación

En muchos casos, la información codificada en formato legible para máquinas ya existe. En el mismo caso del cine, si tienen varias salas y exhiben varias películas, es casi seguro que tienen una base de datos que es usada para generar el sitio Web. El problema es que al momento de pasar de la base de datos al sitio Web, los aspectos formales, estructurales, de la información se pierden. La idea es que, además del sitio Web que ya estén generando, exporten los datos de sus películas en un formato legible.

Otro ejemplo podría ser una página con información sobre música, que también es generada a partir de un repositorio de datos, y cuya aplicación podría ser mejorada para permitir la generación de la página Web para humanos y de una página para la Web semántica.

Para este formato lo más usual es utilizar [article-1868.html XML] y RDF (Resource Description Framework). XML es el lenguaje base y RDF es una aplicación de XML que está hecha para explicitar hechos acerca de ciertos recursos.

Supongamos por ejemplo que la página http://www.mymusic.example/album/Homogenic contiene información sobre el Álbum Homogenic de la artista islandesa Björk. Además la página puede incluir más información de esta forma (este es un fragmento simplificado de RDF):


<Album rdf:about="http://www.mymusic.example/album/Homogenic">
 <Year>1997</Year><Month>9</Month><Name>Homogenic</Name>
 <Artist rdf:resource="http://www.mymusic.example/artist/Bjork"/>
 <Genre rdf:type="http://www.musicdb.example/genres#Electronica"/>
 <Tracks>
   <Track rdf:resource="http://www.mymusic.example/song/Hunter"/>
   ...
  </Tracks>
</Album>

En el ejemplo hay varios elementos: uno es el hecho de que la descripción puede apuntar a otros recursos, por ejemplo, el álbum está compuesto de canciones (Tracks) que están en otros lugares del mismo sitio. Otro elemento es que se hace referencia a un vocabulario común (en musicdb.example/genres) para especificar el género, en este caso música electrónica. Finalmente, como en este caso no hay un identificador universal, único (como el código ISBN para los libros), se provee de la mayor cantidad de información posible (Año, Mes, Nombre) del álbum para poder identificarlo inequívocamente al hacer una búsqueda.

Encima de RDF, que permite decir crear relaciones anotadas entre dos objetos, está OWL, que define cómo son esas relaciones. Un documento OWL es el equivalente a un esquema en una base de datos relacional, y permite definir clases y propiedades. De forma simplificada la relación entre estos tres lenguajes puede entenderse como una pila de tres capas.

Una solución paralela a la idea de RDF+OWL es el uso de Microformatos, que son acuerdos para incluír en las mismas páginas Web un poco de información de estructura que permite despues decodificarlas, por ejemplo hCard incluye algunas definiciones para el atributo class de las marcas HTML que permite identificar nombres de personas, direcciones, teléfonos, etc.

¿Qué viene primero?

Qué viene primero, ¿el huevo o la gallina?. La verdad es que ambas cosas evolucionan juntas, y se van desarrollando mutuamente. La Web semántica avanza lentamente aún porque no muchos se dan el esfuerzo de proveer de una interfaz apropiada a la información que tiene, porque no existen las aplicaciones, y no muchos desarrollan aplicaciones porque no hay datos sobre los cuales operar.

La Web semántica y sus aplicaciones se irán desarrollando mutuamente. La "killer application" de la Web semántica será el efecto de masa que se conseguirá una vez que, en ciertos dominios, haya suficiente información anotada semánticamente como para que se puedan construir aplicaciones que inviten a más gente a proveer de contenido etiquetado.

No se trata de tomar las páginas que ya existen y etiquetarlas: eso no funcionará. Se trata de, para los sitios Web que se están construyendo, preocuparse de proveer de un formato legible que permita compartir información con otros. En ciertos dominios esto ya está sucediendo. Estamos en la etapa en que hay unos pocos que han adoptado esta nueva tecnología y la están usando, mientras la mayoría está expectante esperando que la situación se haga más clara y estable. Así también empezó la Web y miren hasta donde hemos llegado.

Referencias