Calidad e Interoperabilidad de los datos

No hay mejor forma de empezar el año que con una nueva edición del encuentro anual Aporta sobre el estado de la reutilización de los datos públicos en España, organizado por el Ministerio de Industria, Energía y Turismo, el Ministerio de Hacienda y Administraciones Públicas y la Entidad Pública Red.es.

Encuentro Aporta

Este año el encuentro estuvo dedicado al valor de los datos abiertos y contó también con la novedad de incorporar un foro sectorial sobre los datos de turismo. Además, tuve el placer y privilegio de compartir mesa con Antonio Rodriguez (Jefe del Área de Infraestructura GIS en el Instituto Geográfico Nacional de España), Aleida Alcaide (Consejera Técnica del Ministerio de Hacienda y Administraciones Públicas) y Jose Luis Roda (Profesor titular de la Universidad de la Laguna) como moderador de una sesión con un tema de lo más interesante: la Calidad e Interoperabilidad de los datos.

Sesión de Calidad e Interoperabilidad de los datos

El planteamiento que realicé como hilo conductor de la mesa seguía tres premisas básicas que me gustaría compartir:

1 – Los problemas de calidad e interoperabilidad no son una novedad de los datos abiertos

La calidad de los datos y la interoperabilidad son dos retos importantes que no son nuevos en absoluto y llevan con nosotros desde el inicio de las TIC e incluso mucho antes. Ahora sin embargo, gracias a la proliferación de iniciativas de datos abiertos, los datos están cada vez más expuestos y los reutilizadores comienzan a verlos con nuevas y diferentes perspectivas distintas a las originales. Los datos son puestos a prueba, se analizan, se visualizan y se buscan nuevas utilidades y servicios que hacen aflorar también nuevos problemas no detectados hasta el momento, aumentando al mismo tiempo el grado de exigencia de calidad.

Quien piense que sus datos no tienen ningún problema es que no los ha mirado nunca con suficiente detenimiento.

Todo analista de datos experimentado ha aprendido a convivir con cierto grado de error e incertidumbre en los datos como parte natural e inevitable del proceso; y también han aprendido a planificar los proyectos adecuadamente incluyendo el esfuerzo y los procedimientos necesarios para el tratamiento de esos errores.

2 – La calidad total de los datos es una “quimera” que debemos perseguir

Sin embargo, al contrario que los analistas, los “propietarios” o gestores de los datos sienten habitualmente una cierta resistencia natural a la aceptación de los errores, mucho más cuando ahora son expuestos “públicamente”. Debido a ello necesitan cierto periodo de aceptación y durante la última reunión del comité de dirección del Open Data Institute, Tim Berners-Lee comparaba este proceso con las 5 etapas del trauma descritas por el modelo Kübler-Ross:

Modelo Kubler-Ross
  1. Negación: Los datos no pueden estar mal, el problema tiene que estar en otro sitio.
  2. Ira: ¿Quién es el responsable y por qué no nos habíamos dado cuenta hasta ahora?
  3. Regateo o Negociación: ¿Podemos ignorar y ocultar los fallos de alguna manera?
  4. Depresión: En realidad estos datos están tan mal que no servirán para nada. Sería mejor dejarlo.
  5. Aceptación: De acuerdo, sabemos que hay un problema. Documentémoslo y describamos el alcance y las limitaciones.

Una vez superadas las etapas anteriores es necesaria la transición hacia una etapa adicional de “Esperanza” en la que finalmente nos damos cuenta de que, gracias a que los datos están ahora más expuestos, podemos contar también con más ayuda, mejores herramientas y canales de feedback para poder corregir los problemas y usarlos en nuestro beneficio para mejorar la calidad final.

3 – Las tres vertientes de la interoperabilidad.

Podemos descomponer la problemática de la interoperabilidad de los datos en tres componentes principales.

Interoperabilidad Técnica

Interoperabilidad Técnica

En este nivel hablamos de infraestructuras, protocolos y tecnologías utilizadas para compartir datos de forma común para que los sistemas puedan hablar entre sí.

Este punto generalmente no suele resultar especialmente conflictivo, al contar ya con una base de infraestructuras y tecnologías en Internet y la Web suficientemente maduras y adecuadas para este fin. No obstante la creación de frameworks específicos y adecuados para cubrir las necesidades de este tipo de proyectos puede ayudar a facilitar considerablemente el uso y aprovechamiento de los datos. Un ejemplo en esta línea sería el proyecto Europeo FI-WARE que explota el concepto cada vez más extendido de las Open APIs.

Interoperabilidad Semántica

Interoperabilidad SemánticaAquí nos centramos en que los sistemas sean capaces no únicamente de hablar, sino de entenderse entre ellos. Está vertiente se encuentra a medio camino entre la parte más técnica y la más humana, y será la capa encargada de facilitar los estándares adecuados para la representación de los datos y la información, de forma que pueda analizarse e intercambiarse automáticamente, pero al mismo tiempo mantenga también su capacidad de poder ser comunicada a las personas de forma comprensible para ellos.

Interoperabilidad Sintáctica o Humana

Interoperabilidad SintácticaEste último componente se centra en las personas que tienen que llegar a acuerdos y convenios para “hablar el mismo idioma”¿Qué es el Open Data? ¿Qué principios sigue? ¿Cómo se hace “bien”? ¿Qué datos hay que abrir? ¿Con qué estándar y en qué formato? ¿Qué modelo deben seguir unos determinados datos? ¿Sirve un único modelo para todo el mundo?

Poner a todo el mundo de acuerdo para dar respuesta común a estas preguntas es quizás el reto más grande, y más difícil será aún cuanto más global es el objetivo, ya que a los retos propios del Open Data tenemos que unir aquellos relacionados con el Big Data o la Internacionalización (en ambas vertientes: globalización y localización) y el reto del Broad Data.

En esta parte se están centrando actualmente múltiples grupos de trabajo en organizaciones tan diversas como el G8, el Grupo del Open Data del Open Government Partnership, la iniciativa de Interoperabilidad de la Comisión Europea, la Global Open Data Initiative, la actividad de Datos del W3C, etc.

Calidad e interoperabilidad en tres casos de uso.

Las intervenciones de mis compañeros de mesa se centraron en explicar la necesidad y los beneficios de las acciones para asegurar la calidad e interoperabilidad de los datos en tres casos de uso distintos y a cada cual más interesante: La directiva Inspire, la actualización de la Directiva Europea de Reutilización de la Información y el proyecto Open Data Canarias.

Sus intervenciones y la del resto de las mesas del encuentro, así como entrevistas y otros materiales audiovisuales pueden consultarse en el mini-site temático SpainESData.

Avances de la Comisión Europea en materia de Open Data y RISP

Este artículo fue publicado primero en inglés.

Tal y como se viene afirmando últimamente, los datos son el nuevo combustible que alimenta la era digital. Si tenemos en cuenta el amplio rango de oportunidades que el Open Data puede proporcionarnos, no es ninguna sorpresa que dentro de los planes de la Comisión Europea esté el continuar revolucionando la forma en la que las autoridades públicas comparten sus datos. A continuación se muestra una visión general de cuáles son las acciones llevadas a cabo por la CE hasta el momento en materia de Open Data e Información del sector público, así como una revisión de las acciones futuras más inmediatas.Logo European Commission

Un hito de referencia: Workshop de Datos en la Asamblea de la Agenda Digital 2011

La CE organizó una primera Asamblea de la Agenda Digital en Junio de 2011 para tratar los avances en relación a los objetivos de la Agenda Digital para Europa. Con ese propósito se organizaron una serie de dos sesiones plenarias y 24 talleres temáticos, uno de los cuales estuvo dedicado al Open data y la reutilización de la información en el Sector Público (RISP), donde distintos actores implicados en la materia se dieron cita para colaborar con la Comisión en el desarrollo de su estrategia Open Data para la Unión Europea.

Khalil Rouhana (Director General de Sociedad de la Información de la CE) realizó varios anuncios clave en relación a las políticas Open Data en la UE que analizaremos en las siguientes secciones.

El papel de los portales Open Data Europeos

Los portales Open Data están destinados a ser una referencia clave en la infrastructura digital que facilite el acceso y reutilización de la Información del Sector Público y son varios los estados miembro que están desarrollando portales Open Data a todos los niveles. Dado que la cantidad de datos publicados hasta el momento es relativamente limitada en comparación con los disponibles, la CE tiene dentro de sus planes la publicación de dos nuevos portales Open Data que faciliten el acceso a datos Europeos:

Captura de pantalla de data.gov.eu

  •  El portal Open Data de la Comisión Europea data.gov.eu, pensado para facilitar la localización de los datos de la propia Comisión y otras instituciones Europeas. El portal, actualmente en desarrollo, estará disponible para el público a lo largo del 2012.
  • Portal Open Data Pan-Europeo, que facilite la localización y reutilización de los datos de administraciones nacionales, regionales y locales a lo largo de Europa. Un prototipo estará disponible en el 2013.

Revisión de la directiva de reutilización de la Información del Sector Público

Originaria de Noviembre de 2003, y actualmente traspuesta por completo a todos los estados miembros, la Directiva original proporcionaba una harmonización mínima de reglas y procedimientos a lo largo de la UE para facilitar la reutilización de la Información del Sector Público a través de las fronteras. En diciembre de 2011 se presentó una propuesta para la revisión de la Directiva para mejorar la apertura del mercado de servicios sobre la Información del Sector Público a través de las siguientes medidas:

  • Incluir nuevos participantes en el ámbito de aplicación de la Directiva, como por ejemplo bibliotecas, museos y archivos.
  • Determinar límites en las tasas que se establezcan como costes márginales por parte de las autoridades públicas.
  • Introducir medidas de seguimiento independientes en los Estados Miembros.
  • Desarrollar estándares para formatos legibles por máquinas que puedan ser utilizados por las autoridades públicas.

Otros pasos previos significativos

El primer taller sobre Open Data en la Asamblea de la Agenda Digital supuso sin duda un antés y un después, tanto en las políticas Open Data y de reutilización en la UE como en la forma en que la CE comunica esas políticas e interactua con los distintos agentes implicados.

Sin embargo, varias fueron también las medidas adoptadas por la CE en materia de Open Data y RISP con anterioridad a este primer talle, como por ejemplo:

Diciembre 2011: El Comunicado sobre Open Data

Como continuación del primer taller de la Agenda Digital, la Comisión adoptó un Comunicado oficial sobre Open Data a través del cual se proponen una serie de acciones para cumplir con los objetivos previamente anunciados:

  • Crear un portal para la información de la Comisión que se extienda posteriormente también a otras instituciones y agencias de la UE.
  • Trabajar en conjunto con los Estados Miembros sobre los formatos de datos y la interoperabilidad de los distintos sitios.
  • Crear un portal Pan-Europeo que enlace información de distintas instituciones de los Estados Miembro.

Segundo taller sobre Datos en la Asamblea de la Agenda Digital 2012

En Junio de 2012, la Asamblea de la Agenda Digital acogió una nueva edición del taller de Datos en la que se dio un nuevo repaso a la hoja de ruta de la EC en materia de Open Data y RISP:

También es destacable la apuesta global Europea en materia de tratamiento de datos, Open Data y Open Access, no solo solo mediante políticas y medidas regulatorias, sino también a través de investigación, innovación y la implementación de pilotos y portales financiados mediante los múltiples programas de I+D+I FP7 y CIP-ICT-PSP 2011-13, que tendrán su continuación con el nuevo Programa Horizon 2020.

Horizon 2020 logoAlgunas de las cuestiones que destacan de entre las tratadas en este nuevo taller fueron:

Licencia de Datos Europea

Existe una necesidad real de estudiar los requisitos para una Licencia de Datos Europea, dado que será un elemento necesario a la hora de facilitar el acceso y la reutilización de los datos a través de las fronteras Europeas. Varias son las cuestiones que hay que resolver al respecto: ¿Sirve alguna de las licencias ya existentes o necesitaríamos una nueva? En caso de necesitar una nueva licencia, ¿hay alguna opción obvia a seguir o se necesitaría algo completamente nuevo?

Publicación de Datos Clave

Dado que los Estados Miembros de Europa cuentan ya con una enorme cantidad de datos valiosos, una tarea prioritaria sería la identificación y difusión abierta de Datos clave de referencia. Algunos de esos datos ya están siendo publicados de forma abierta por ciertos Estados Miembro, pero son todavía demasiados los que permanecen cerrados bajo extrañas reglas de reutilización o modelos de recuperación de costes insostenibles.

Próximos pasos

Además de todas las actuaciones en marcha anteriormente mencionadas, y según lo anunciado por la Vice Presidenta de la Comisión Neelie Kroes, la CE tienen en mente continuar con el desarrollo de su estrategia Europea para la publicación y reutilización de los datos del sector público en las instituciones Europeas y los Estados Miembros. Algunos elementos destacables dentro de los próximos pasos serían los siguientes:

Servicios para la publicación, acceso y reutilización de los Datos Públicos en la UE

Están planificados una serie de servicios orientados a dar soporte en la publicación de Datos por parte de agentes públicos de la EU en cualquier nivel. Estos servicios incluirán:

  • Servicios relacionados con la preparación, transformación y publicación de los datos, con el compromiso de publicar al menos 15.000 nuevos conjuntos de datos en formatos legibles por la máquinas – incluyendo tecnologías Linked Open Data – y que procedan de todos los Estados Miembro de la UE.
  • Formación a trabajadores públicos en las áreas de Open Data, y en particular para favorecer la adopción de tecnologías Linked Open Data por parte de las instituciones públicas de la Unión Europea.
  • Servicios de asesoría y consultoría técnica en materia de Open Data en general, y particularmente en cuanto a tecnologías Linked Open Data se refiere.

La Incubadora de Reutilización del Open Data

Los distintos instrumentos financieros establecidos continuarán dando soporte a distintos desarrollos Open Data. Cabe destacar el Programa de Trabajao FP7-ICT 2013 que ayudará a las pequeñas y medianas empresas (PYMEs) en el desarrollo de aplicaciones innovadoras para la gestión de contenidos digitales, y particularmente en la reutilización de Open Data a través de la Incubadora Open Data. El objetivo de la Incubadora será establecer un entorno adecuado para:

  • Sondear al público en general en búsqueda de ideas de reutilización del Open Data y llevar a cabo una campaña de Reutilización de la Información Open Data a nivel Europeo.
  • Gestionar convocatorias regulares dirigidas a PYMES en busca de mini-proyectos que puedan ser financiados y llevados a cabo en un periodo de entre 6 y 12 meses.
  • Crear una infraestructura donde las propuestas ganadoras puedan encontrar versiones corregidas y actualizadas de los datos que necesiten para crear sus servicios.
  • Establecer mecanismos para la conexión entre la oferta y la demanda, poniéndose en contacto a los agentes públicos Europeos y ayudándoles a conseguir una publicación eficiente y sostenible de la información.

Armonización de iniciativas Open Data

Como respuesta al reciente clamor por la armonización de iniciativas Open Data, la Unión Europea está financiando proyectos como “Armonización del Open Data en el área del Mediterráneo mediante un mejor acceso y reutilización de la Información del Sector Público – Homer”, cuyo objetivo principal es establecer una estrategia efectiva capaz de armonizar las políticas y portales Open Data a lo largo del área Mediterránea, dando soporte tanto a Gobiernos regionales como locales.Homer Logo

Nuevas vías de crecimiento

La búsqueda de nuevas vías de crecimiento que exploten las posibilidades del Open Data alrededor de una temática específica es tan importante a la hora de avanzar en la materia como los esfuerzos políticos, estructurales y educativos. Algunos de las temáticas Open Data que se están explorando actualmente a nivel de la Comisión Europea son:

  • Datos Culturales: La iniciativa de bibliotecas digitales de la UE pretende hacer que todos los recursos culturales de Europa sean accesibles por todo el mundo, preservándolos para las generaciones futuras. En este área cabe destacar la reciente adopción de la licencia CC0 por parte de Europeana, que supone un cambio importante en el acceso al Open Data que sienta un precedente internacional en el distanciamiento del mundo de los datos cerrados y controlados.

Europeana

  • Smart Cities: Uno de los mayores retos a los que se enfrenta la UE es cómo diseñar y adaptar las ciudades hacia entornos más inteligentes y sostenibles. Las tecnologías urbanas intelligentes suponen una mejora importante a la hora de afrontar los retos urbanos gracias a que involucran a los distintos sectores implicados, dando lugar a soluciones adaptables e interoperables y creando una vía para un uso transparente y abierto de los datos.
  • Open Science: La EC ya ha realizado un primer esbozo de las medidas para mejorar el acceso a la información científica producida en Europa. Un acceso más amplio y rápido a las publicaciones y datos científicos financiados con dinero público hará que sea más fácil aprovechar los resultados por parte de investigadores y empresas, mejorando sustancialmente la capacidad de innovación Europea y dando un acceso más rápido a los beneficios de los descubrimientos científcos. La Comisión hará que el acceso abierto a publicaciones científicas sea un principio general de Horizon 2020, el programa de Investigación e Innovación Europeo para el periodo 2014-2020.

Networking, concienciación y difusión

Tal y como se extrae de las conclusiones en materia Open Data de la última Asamblea de la Agenda Digital,  las actividades de networking, concienciación y difusión son elementos clave para el éxito de una política Open Data y RISP en la EU. De forma complementaria a las acciones legislativas, la Comisión también da soporte a acciones de concienciación difusión y networking como por ejemplo:

  • El Public Sector Information Group, un grupo de expertos en RISP que incluye representantes de 27 Estados Miembro y ha sido convocado por la CE para el intercambio de buenas prácticas e iniciativas que den soporte al RISP, así como proponer soluciones a los retos pendientes, tales como tasas, acuerdos de exclusividad o indicadores de desarrollo RISP.
  • LAPSI, la Red Temática Europea sobre Aspectos Legales de la Información del Sector Público. Principal punto de referencia Europeo en cuanto al análisis de políticas de alto nivel y acciones estratégicas sobre cualquier cuestión legal relacionada con el acceso y la reutilización de la Información del Sector Público en el ámbito digital.
  • El European Data Forum, reunido por primera vez en Copenague en Junio de 2012 y próximamente en Dublín (Abril 2013). Es un foro en el que los agentes de negocio –  incluyendo un gran número de PYMES – investigadores y otros agentes implicados pueden reunirse para discutir el estado de la economía del dato.

La Plataforma Europea de la Información del Sector Público

La EPSI Platform es el nodo central Europeo en cuanto a Reutilización de la Información en el Sector Público (RISP) y su objetivo es la promoción de un mercado RISP dinámico a lo largo de la UE. La Plataforma proporciona un punto de reunión donde los diferentes agentes implicados pueden obtener toda la información relevante acerca de los desarrollos RISP en la UE, así como buenas prácticas destacadas, cuestiones legales y ejemplos de productos y servicios RISP.

EPSI PlatformLa plataforma publica noticias sobre desarrollos RISP Europeos y casos legales acerca de la reutilización, así como buenas prácticas y ejemplos de nuevos productos y servicios que dan cobertura a los principales mercados RISP. Desde la plataforma se hace un seguimiento continuo de los principales desarrollos en políticas Open Data, Government Data y RISP y se elaboran informes sobre distintas iniciativas y proyectos, tanto a nivel Europeo como en el resto del mundo.