Interoperabilidad de los catálogos Open Data Europeos

Se acaba de abrir el plazo de comentarios y revisión pública del borrador de la especificación para el perfil de Aplicación de DCAT destinado a mejorar la interoperabilidad de Catálogos Open Data en la Unión Europea.

El perfil de aplicación de DCAT para portales Open Data Europeos (DCAT-AP) es una especificación para describir mediante metadatos los conjuntos de datos del sector público, de forma que se esas descripciones puedan ser compartidas entre diferentes catálogos o agregadas en un único punto de acceso común. La especificación forma parte del programa ISA de soluciones de interoperabilidad para Administraciones públicas Europeas de la Comisión Europea, dentro de la iniciativa Joinup de interoperabilidad semántica.

ISA | JoinUp | DCAT-AP

DCAT-AP toma como base principal el Vocabulario de Catálogos de Datos (DCAT) – estándar definido por el W3C que ya está siendo utilizando en varios Catálogos tanto en España como en Europa – así como otros vocabularios de referencia como ADMS o Dublin Core. Los objetivos principales de la especificación son:

  1. Identificar los elementos esenciales de DCAT para el contexto Europeo.
  2. Identificar los vocabularios comunes que se utilizarán como referencia en el contexto Europeo.
  3. Identificar el conjunto mínimo de metadatos para el intercambio de información entre catálogos Open Data en Europa.

DCAT-AP indica los metadatos mínimos necesarios para cumplir con las necesidades de los catálogos Open Data proporcionando así un mecanismo de interoperabilidad semántica con otras aplicaciones. Es también importante destacar que, si bien DCAT-AP está desarrollado bajo el modelo de RDF, la intención es definir únicamente el formato de intercambio y no el entorno operativo del catálogo, por lo cual también podrá ser utilizado en entornos que no implementen una solución Linked Data completa.

Además de las clases y propiedades que forman parte del perfil de aplicación el documento de trabajo incluye otras secciones interesantes como:
  • Otros perfiles de aplicación – entre los que se incluye la Norma Técnica de Interoperabilidad de Reutilización de recursos de la información – y modelos de descripción de conjuntos de datos que están siendo ya utilizados en Europa y que han servido como input para este trabajo.
  • Diferentes escenarios y casos de uso de ejemplo para la aplicación de DCAT-AP.
  • Vocabularios de referencia propuestos para su utilización de forma conjunta con el perfil de aplicación.
  • Aspectos de accesibilidad y multilingüismo que se deberán tener en cuenta.
  • Cuestiones relacionadas con el entorno de despliegue de DCAT-AP.

Participa

La definición de DCAT-AP se lleva a cabo a través del consenso de un grupo internacional de expertos que participan en distintas iniciativas Open Data de la Unión Europea. No obstante, el Vocabulario se encuentra ahora en fase de revisión pública durante las próximas cuatro semanas y es muy importante que todos los interesados revisen la especificación y comenten sus impresiones para entre todos poder conseguir la máxima interoperabilidad tanto por parte de los proveedores de datos como de los potenciales consumidores.

También se puede consultar el historial de las distintas cuestiones que se han ido debatiendo a lo largo del desarrollo del perfil de aplicación.

Sin tecnología (y sin tecnólogos) tampoco habría ni Open Data ni Gobierno Abierto

La reciente publicación de Cesar Calderón en su blog, que recomiendo leer antes de lo que viene a continuación, me ha hecho reflexionar a mí también sobre la corriente anti-tecnológica que últimamente viene apareciendo en cualquier debate sobre Open Data o Gobierno Abierto y que produce también algunos fenómenos extraños.

Aunque nunca está de más reiterar la importancia del compromiso y la voluntad política como punto clave e imprescindible para una iniciativa Open Data o de Gobierno Abierto en general, lo que no acabo de entender es qué puede aportar de malo una brillante construcción técnica en cuanto al éxito de la iniciativa o al compromiso de sus promotores, y menos todavía el tono negativo o incluso a veces rozando el sarcasmo que me parece percibir al respecto.

No se equivoquen, la absoluta totalidad de iniciativas exitosas de Open Government, Open Data, participación y transparencia tienen un mismo origen, la política, y un medio común, la tecnología, como herramienta que facilita una transparencia, colaboración, participación y reutilización efectivas.

Y para demostrarlo podemos utilizar los mismos tres ejemplos mencionados como iniciativas de referencia – Obama en USA, Patxi en Euskadi y Cameron en UK – que han estado asociados siempre a sus respectivas brillantes soluciones técnicas, desde la plataforma abierta de Open Government que se utiliza en USA y que ahora está también disponible para su reutilización por otras iniciativas gracias a la Open Government Platform, hasta el recientemente renovado data.gov.uk referente a nivel mundial en casi todos los sentidos, pasando como no por el portal de Apertura de Datos públicos del Gobierno Vasco, que ha sido posible gracias al aprovechamiento de la sólida base técnica previamente existente en la infraestructura Web de Euskadi. Todo eso por no hablar de la reciente apuesta de Obama por las APIs como vía de futuro para la sostenibilidad del Open Data, o la forma en la que desde el Reino Unido se ha ido abriendo camino con las tecnologías de la Web Semántica y el Linked Data como apuesta de futuro para los Datos Abiertos, vía a la que recientemente se ha unido también la Comisión Europea.

Por otro lado, es realmente difícil que si no existe un verdadero compromiso político se realice la apuesta necesaria para llevar a cabo una solución técnica adecuada. Esto da lugar a que en la gran mayoría de las ocasiones la existencia de una solución técnica brillante sea por pura lógica un claro indicativo del compromiso político previamente establecido, es decir, dicha solución técnica surge normalmente como consecuencia del compromiso. De hecho, aquellos casos en los que el compromiso político no existe realmente muchas veces se pueden detectar con facilidad gracias a que se suelen materializar a través de soluciones técnicas pobres e inadecuadas, incapaces a todas luces de sostener un proyecto que se hubiese conceptualizado como algo duradero.

Por tanto yo diría que si bien el compromiso político es el verdadero habilitador, la solución técnica es el posibilitador final capaz de hacer una iniciativa sostenible a lo largo del tiempo, y no olvidemos que si no fuera por la plataforma abierta que nos ofrece Internet no estaríamos problabemente hablando de las iniciativas de Open Data o Gobierno Abierto a las que sirve de soporte imprescindible.

De esta forma, un político que no sepa hacer un uso adecuado de la tecnología que tiene a su disposición está dando el primer paso hacia la insostenibilidad de cualquier iniciativa de reutilización de la información. De igual modo que una comunidad de Gobierno Abierto y Open Data que no es capaz de trabajar unida está dando grandes zancadas hacia su autodestrucción, y todo por no saber respetar, apreciar y valorar en su justa medida el trabajo de los distintos implicados, ya sean grandes políticos de nueva generación, brillantes tecnólogos o visionarios del Gobierno Abierto.

Implicaciones técnicas de las iniciativas Open Data

Continuamos con el análisis de las Pautas para el desarrollo de políticas Open Data de la Sunlight Foundation, y una vez vistos los aspectos relacionados con la planificación de la iniciativa y los relativos a la preparación de los datos veremos ahora las pautas que conllevarán ciertas implicaciones técnicas.

Cuestiones técnicas

Dado que el objetivo es utilizar Internet como herramienta facilitadora para la transparencia y la reutilización, en estas pautas se recogen algunos de los aspectos técnicos básicos que hay que tener en consideración a la hora de promover una política de datos abiertos eficiente y sostenible desde el plano técnico.

Archivado electrónico

Todavía hoy en día gran parte de los datos de la Administración se generan en formatos no electrónicos quedando así abocados al olvido independientemente de su publicación o no. El archivado electrónico de toda la información debería ser la opción obligatoria por defecto y estar regulado de forma legislativa.

Digitalización y distribución de los materiales históricos

El volumen de datos históricos almacenados a lo largo de los años de forma no digital es sustancialmente mayor que los datos digitalizados disponibles en la actualidad. El valor potencial de dicha información histórica es muy alto, por lo que deben promoverse también políticas específicas para una digitalización progresiva que permita su posterior apertura por medios electrónicos.

Actualización continua y periódica

Los datos son entidades vivas que cambian constantemente y si no se actualizan de forma periódica perderán rápidamente su valor. Los procedimientos e infraestructuras de catalogación e inventariado deberán estar planificadas de forma que la información se pueda actualizar en tiempo real con una periodicidad adecuada para cada caso concreto.

Persistencia

Mantener una alta fiabilidad en los mecanismos de persistencia de los datos que se publiquen será un factor crítico si queremos que se pueda desarrollar un ecosistema capaz de explotar dichos datos. La persistencia tendrá que tenerse especialmente en cuenta en cuanto a los mecanismos de publicación, actualización, versionado y archivado se refiere.

Para conseguir ese objetivo de persistencia en la Web se utiliza el sistema de identificación global denominado URI (Uniform Resource Identifier o Identificador Uniforme de Recursos). Gracias a dicho mecanismo, combinado ciertas buenas prácticas en su uso, conseguiremos fácilmente la persistencia deseada.

Formatos Abiertos

La utilización de formatos abiertos y estándares es un requisito ineludible para garantizar la interoperabilidad de las iniciativas. Si utilizamos formatos propietarios estaremos creando una coraza en torno a los datos que dificultará el posterior acceso a los mismos.

Proporcionar APIs

Proporcionar APIs (Application programming interface o Interfaz de Programación de Aplicaciones) que faciliten el trabajo de aquellos que quieran explotar los datos de forma programática es una buena práctica que sin lugar a dudas facilitará y fomentará la reutilización.

Sin embargo, diseñar APIs útiles para Open Data no es siempre una tarea fácil, ya que, además de las implicaciones técnicas implícitas a cualquier API, para que resulten eficaces dichas APIs deberán ser diseñadas teniendo en cuenta no sólo las necesidades de los desarrolladores, sino también todos los potenciales casos de uso existentes para la explotación.

Es por ello que la existencia de APIs de libre utilización no debería nunca sustituir la publicación de todos los datos en bruto, sino complementarla.

Crear portales específicos Open Data

Los portales Open Data que centralizan el acceso a la información y la complementan proporcionando metainformación y otra documentación relacionada son una herramienta cuyos beneficios para el fomento de la reutilización están ya más que probados. Por ejemplo en España un 45% de los datos reutilizados por las empresas proviene de portales específicos open data.

Además, los portales han ido evolucionando hacia plataformas abiertas completas que recogen también el feedback de los usuarios de los datos, dando así un paso más en la cadena de valor de la transparencia y la reutilización.

Open source

Si bien no es un requisito imprescindible para el fomento de la reutilización de datos, la publicación en formato código abierto de las herramientas que se han utilizado para el desarrollo de las distintas iniciativas sí puede resultar un elemento favorecedor creando un efecto de red que sirva para reducir el nivel de entrada y facilitar la proliferación de nuevas iniciativas que se aprovechen de los recursos proporcionados por las anteriores.

Los retos pendientes del Open Data en España

Este artículo fue publicado primero en Open Data @ CTIC.

La semana pasada tuvo lugar el encuentro de iniciativas Open Data en España, organizado por el proyecto Aporta, en el que se debatió sobre los desafíos organizativos y técnicos existentes, así como las iniciativas de negocio basadas en Open Data y su potencial como canal de comunicación con el ciudadano.

Gracias a la comunicación surgida entre los participantes de las distintas mesas temáticas, el público y a través también de otros canales como Twitter, pudimos asistir a un interesante debate en el que se repasó el estado general del Open Data en España, así como los principales retos pendientes que ya se vienen debatiendo en la propia comunidad desde hace algún tiempo.

A continuación os exponemos lo que creemos que son las conclusiones más destacadas del encuentro:

El papel de la Administración

La Administración va superando poco a poco su obsesión por la posesión de los datos y ha comenzado a asumir que los datos no le pertenecen y que su papel se limita al de una mera gestora de la información. Pocos dudan ya de que abrir los datos contribuye a mejorarlos, corregir errores, incrementar la interoperabilidad y crear valor añadido gracias a cruzar distintas fuentes de información. El debate dentro de la Administración se centra ahora en otros aspectos, como por ejemplo la preocupación por las posibles consecuencias que deriven del uso de datos que contienen errores y la responsabilidad que eso conlleva.

Debemos tamibén ser cuidadosos con que la Administración no se convierta en un competidor privilegiado de la empresa privada, y para ello no debería encargarse de la explotación directa de los datos, ni de la tecnología necesaria para realizar dicha explotación, sino tan solo de su adecuada exposición al público a través de los medios más convenientes. Sin embargo, esto abre también el debate de hasta qué punto algunos servicios públicos básicos podrían o deberían delegarse en la empresa privada.

Ahora toca afianzar las iniciativas y asegurar su supervivencia para no queden en una mera moda pasajera, incluyendo la apertura de datos como otro nuevo canal permanente de comunicación con el ciudadano y haciendo de la reutilización un valor rentable para todos.

Los aspectos técnicos

Todavía hoy en día se detecta una gran dificultad para ejercer la labor del infomediario, debido principalmente a la baja calidad de los datos y la falta de preparación para su reutilización. La diversidad de vocabularios y la proliferación de formatos difíciles de tratar de forma automatizada consume también una gran parte de los recursos en las iniciativas sin aportar ningún valor añadido.

Existe unanimidad en cuanto a la importancia de la armonización en las iniciativas, la utilización de suficiente metainformación para poder valorar adecuadamente los datos y la creación de estándares al respecto para conseguir unificar y documentar vocabularios en las áreas donde todavía no existen. Con todo ello conseguiríamos que el potencial de reutilización fuese mayor y ampliar el mercado.

Tampoco hay que perder de vista que el Open Data necesita de una aproximación integral, y no únicamente desde una perspectiva técnica. Los retos técnicos son en general menores que los conceptuales, ya que el camino a seguir está hoy en día más claro en la parte técnica con respecto a otros aspectos organizativos, conceptuales, políticos y de evangelización.

Debemos sin embargo también tener en cuenta que, si bien con respecto a la transparencia lo fundamental es el volumen de información abierto, en cuanto a la reutilización es también primordial contar con una buena base tecnológica. Es por ello que resulta muy importante también llegar a un compromiso adecuado entre la inmediatez de las iniciativas raw data y la potencia ofrecida por el Linked Data, llegando a un equilibrio que permita la sostenibilidad a largo plazo.

Por tanto, no podemos obviar los problemas técnicos y debemos darles solución, cuestión que en general no es trivial porque no partimos de cero, sino de sistemas de información pre-existentes que originalmente no estaban pensados para ser expuestos. Esto conlleva un trabajo adicional además de tener que afrontar otros retos relacionados con la automatización de los procesos, la robustez y escalabilidad de los sistemas, la actualización de la información, etc.

El sector de los infomediarios

Si bien la Administración todavía no está completamente preparada para la reutilización, da la impresión de que el sector empresarial tampoco lo está.

El sector de los infomediarios en España está actualmente muy focalizado hacia nichos concretosrelacionados con sectores como geografía, economía, jurídico, consultoría, etc. Se echan en falta nuevas iniciativas que ayuden a ampliar el rango de sectores y abrir nuevas líneas de negocio a partir de los nichos de mercado que quedan todavía por cubrir gracias a la apertura de información y a la transparencia.

Las empresas reutilizadoras juegan un papel fundamental en la cadena de generación de valor y es imprescindible contar con ellas, pero para ello debemos modificar la visión actual del modelo de negocio un tanto anticuada y distinta a la que podemos encontrarnos fuera del país, olvidándonos cuanto antes de vender datos y pasar a vender servicios.

Los dispositivos móviles y la Web única jugarán también un papel importante, no solo como herramientas de consumo, sino también como un medio fundamental de generación de datos por parte de la ciudadanía, pasando esta a desempeñar también un papel activo y no solo como consumidora.

También hay que tener en cuenta que el desarrollo de aplicaciones es tan sólo una parte del potencial delOpen Data, y que existen otras vías de negocio todavía por explorar como la publicidad, los servicios de suscripción, la transformación de los datos, etc.

Finalmente, existen también algunos aspectos que lastran las posibilidad de generación de negocio por parte de los infomediarios, como por ejemplo la falta de definición y claridad en el contexto legal o la posiblidad de que se impongan tasas para el acceso a los datos. Una mayor claridad y unificación en los términos de las licencias y un modelo de retorno de inversión que no se basara en la imposición de tasas ayudarían a la evolución positiva del sector.

Los beneficios para la ciudadanía

Quizás el reto más importante sea cómo hacer llegar realmente al ciudadano los beneficios de la apertura de datos ya que si fuese consciente de los potenciales beneficios demandará Open Data de forma natural. La difusión y formación desde la base es por tanto fundamental y necesaria tanto de forma interna como externa. Otro factor importante es la escucha activa para identificar los intereses de ciudadanos einfomediarios.

La gente entiende mejor el open data a través de aplicaciones concretas y es por ello que iniciativas del tipo de AbreDatos, si bien tienen un potencial limitado a la hora de generar negocio entorno al Open Data, sí constituyen un buen escaparate de cara al público y un componente demostrador de cara a la ciudadanía que les ayuda a ser conscientes de los beneficios. No obstante, no podemos estancarnos ahí, y debemos promoverpolíticas completas de participación, difusión y fomento del consumo que involucren a todos los agentes.

La información liberada y su potencial utilidad es también un factor primordial de cara a atraer la atención del público. Existen datos muy interesantes y demandados por la sociedad que siguen sin publicarse, como por ejemplo información relacionada con la seguridad ciudadana, el turismo, tráfico y transporte público o agendas de eventos.

No obstante, también hay una sensación general de que nadie tiene muy claro cuáles son los datos realmente útiles y dónde están, de ahí la tendencia hacia políticas raw data hoy en día, con la intención de dar a conocer lo antes posible cuál es la información disponible. Una política de transparencia activa ayudaría a facilitar esta labor fundamental de identificación, y en este aspecto también juegan un papel fundamental loscatálogos de datos a la hora de facilitar la localización de la información.

El futuro próximo del Open Data en España

En los próximos días, semanas y meses seguiremos viendo nuevos proyectos y muchas y excitantes novedades sobre la materia, como la publicación de un estudio del sector infomediario realizado por el ONTSIque nos ofrecerá importantes datos, nuevos proyectos interesantes en materia de estadística, un campo en el que la reutilización es muy importante, y el nuevo portal de reutilización nacional de España –  datos.gob.es – que cuenta con la participación de nuestro equipo Open Data @ CTIC.

Podemos pues concluir que España cuenta con una comunidad Open Data activa y cada vez más madura que justifica su posición destacada entre las iniciativas internacionales y los retos a los que nos enfrentamos son similares a los de otras iniciativas y comunidades con grados de madurez similares, por lo que debemos seguir evolucionando para superarlos.