Building the foundation for an Open Data Directory

This post was first published at the ePSI Platform and the Open Knowledge Foundation blog.

Open (Government) Data as it is understood nowadays can still be considered a new concept. It started to gain traction worldwide since the Obama memo in early 2009 and the launch of data.gov a few months later. Following successful leading examples of the US and UK governments we have seen Open Data flourishing all over the world over the last three years. More than two hundred Open Data catalogs have been identified so far.

But still, it’s not always clear how to deliver good solutions and many questions remain unanswered. In order to build sustainable Open Data initiatives in a varied range of countries a broader view to address challenges is needed. New and existing initiatives willbenefit from shared knowledge and will also produce a range of resources that should be published in a freely and open way for others to reuse.

As the Open Data movement is growing worldwide; the number of available resources is also increasing. The scarcity of only 3-4 years ago is ending but the resources are appearing in disparate places and formats, sometimes difficult to find and share. There is a pressing need to compile and document existing resources that are verified, trustworthy, comparable, and searchable.

The Open Data Directory

Upon discussions with many in the Open Data community, an initial analysis of their own project needs and preliminary research on existing public resources, the Web Foundation believes that the community at large would benefit from a central entry point to Open Data related resources at a neutral source, the Open Data Directory (ODD).

This ODD will help to produce clear evidence base of the benefits of Open Data holding a wide range of resources types such as: use cases, case studies, stories and anecdotes, methodologies, strategies, business cases, papers, reports, articles, blog posts, training materials, slide sets, software tools, applications andvisualisations. The directory will not focus on compiling a vast number of references, instead it will give priority to high-quality references endorsed by the Open Data community.

As a first step towards the ODD, we are making public the Use Cases and Requirements Draft in order to get comments from the wide community, not only on the content of the document itself but also on the overall idea of the ODD. We’ve published it as a Google Document with comments turned on. This is a tool for you, the Open Data community, so suggestions, feedback and comments are very welcome. The extended deadline for submitting comments is: April 29th, 2013.

Cuando el diseño se encuentra con el Open Data

Los planteamientos de Daniel Torres Burriel sobre cómo ve él las iniciativas Open Data desde su perspectiva de un diseñador, que son de lectura obligada para comprender lo que viene a continuación, me dan pie a iniciar una conversación sobre un tema que ya me había planteado en varias ocasiones: la relación entre el Open Data y el mundo de los diseñadores, así como las oportunidades de interacción y colaboración entre ambos.

Open Data

Empiezo pues agradeciendo a Daniel el haber abierto el debate público sobre la materia y a continuación paso a expresar mis opiniones en cuanto a sus comentarios:

PDFs: El cementerio donde reposan los datos

Creo que nadie duda de ello, si bien es cierto que se sigue (y se seguirá) publicando información en PDF, mucha, claramente demasiada. El origen de este fenómeno suele ser que toda esa información normalmente ya estaba previamente en ese formato, ya que durante muchos años los PDFs fueron la forma cómoda (y pésima) de crear contenidos para las Webs de la Administración.

Pero, aunque siempre será algo mejor tener datos públicos en un mal formato que no tener ningún dato publicado, esto no debería ser tomado nunca como una solución definitiva, sino como una mera transición para publicar inmediatamente la información disponible a la vez que se trabaja en la mejora de esos formatos. El problema surge cuando lo que debería ser una solución (muy) temporal se convierte en el formato final y es entonces cuando los PDFs se convierten en el lugar a dónde van a morir los datos.

Modelos de representación de los datos

No tengo claro si he entendido bien el concepto de lo que propones como interfaz de consumo, por eso no estoy seguro de si es algo que realmente ya existe o algo que habría que hacer o si simplemente lo que pides es imposible.

Tal y como yo lo veo, cualquier dato que se exponga al final no es más que un dato, lo que al final sumará multitud de datos de las más variadas fuentes y dominios de información. Sí lo que pides es unas pautas generales de presentación de datos me atrevería a afirmar que eso es imposible más allá de todo el compendio que existe ya sobre el tratamiento general de la información y su visualización, pero eso también es una ciencia por sí misma que hay que saber aplicar en cada caso para saber sacarle partido a la información y aflorar las historias que esconde.

No hay más reglas ni puede haberlas. Si no lo he entendido bien por favor ayúdame a interpretarlo mejor, porque me encantaría poder buscarle una solución.

Los datos como entidades vivas

Sin lugar a dudas los datos son entidades vivas, y además existe cierta relación directa entre la frecuencia de actualización de los datos y su valor, es decir, generalmente los datos más vivos y que por su naturaleza se actualizan con mayor frecuencia son los que pueden aportar un mayor potencial en cuanto a beneficio social y económico.

Esa realidad se debe reflejar en los sistemas que gestionen los datos, pero el hecho de que un conjunto de datos se presente como fichero no quiere decir que ese datos estén condenados a la estaticidad de por vida. Al fin y al cabo un fichero tan solo refleja el estado de ese conjunto de datos en un momento determinado y por tanto podría ser también una solución válida aquella que aportase un fichero por cada versión de los datos, siempre que se combinase con un sistema adecuado de gestión de versiones, a través de una configuración apropiada de las URIs por ejemplo.

Cuestión aparte es que hay ciertos datos especialmente dinámicos a los que se les podría sacar mucho más partido a través de una API, e intuyo que por ahí van tus peticiones. En eso no puedo más que coincidir, con un algunos de matices:

  • Una API podría no ser siempre la mejor opción.
  • Para cumplir con los principios del Open Data esa API debería ser un complemento y nunca un sustituto del acceso completo a los datos en bruto.
  • Habrá que seleccionar cuidadosamente cuáles son los datos que se abren por este medio, ya que crear y mantener una infraestructura que de soporte a ciertos datos especialmente dinámicos puede resultar bastante caro, y por supuesto estaríamos hablando de dinero público.

Patrones de datos

Nuevamente no se si el concepto de patrón de diseño se podría aplicar a la explotación de los datos, está claro que sí debe aplicarse, y de hecho ya se hace, para el diseño de los modelos de datos, pero precisamente el potencial de la explotación de los datos se basa en que no hay patrones establecidos y la creatividad y la imaginación con los que somos capaces de combinarlos son los únicos elementos que definen los límites.

Evidentemente para poder sacar provecho de esos datos habrá que tener ciertos conocimientos que provienen de distintas disciplinas (cálculo, estadística, bases de datos, algoritmos, programación, visualización, etc.) que en conjunto se vienen denominando Data Science, y por supuesto contando siempre también con especialistas de la materia en cuestión que se esté tratando en cada momento (sanidad, educación, transportes, medio ambiente, etc.)

Lo que si que es cierto es que en general existe una ausencia muy preocupante de los famosos code books que deberían acompañar siempre a cualquier conjunto de datos para facilitar su explotación. Cuando tratamos con datos muy simples con estructuras mínimas es fácil que con poco esfuerzo cualquiera deduzca esas estructuras y pueda sacarles partido, pero en la mayoría de casos intentar hacer algo productivo con unos datos en crudo que no cuentan con ninguna documentación puede evolucionar fácilmente hacia una misión imposible, o cuando menos conllevará unos considerables esfuerzos superfluos que se podrían y deberían haberse evitado fácilmente.

La crítica final

Me alegra ver que todo el mundo esté últimamente ávido de datos, pero las iniciativas Open Data son carreras de fondo en la que hay que seguir una serie de pasos, entre los cuales se encuentra la necesidad de proporcionar un catálogo para que la información salga de los archivadores y los discos duros de la administración y se haga visible a todo el mundo.

Por muy poco acertada que pueda acabar siendo una iniciativa Open Data en su ejecución, que las hay, creo que llegar a compararlo con el despotismo ilustrado podría ser cuando menos un poco exagerado. Sobre todo si tenemos en cuenta que en este caso el Gobierno de Aragón lleva ya bastante tiempo trabajando tanto internamente, impartiendo formación a sus servidores públicos, como externamente llamando a la participación de todo el mundo, además de haber mostrado en repetidas ocasiones su voluntad de seguir haciéndolo en el futuro próximo.

Está claro que la colaboración entre todos los agentes implicados (Gobierno, Ciudadanos, Empresas, Profesionales, Universidad, etc.), incluyendo por supuesto a los diseñadores, es una herramienta fundamental para el éxito del Open Data, y por eso sería estupendo que el evento UX de referencia en España, al que acudirán muchos de esos diseñadores, adoptase un modelo más flexible, participativo e inclusivo,que las tradicionales conferencias y mesas redondas para abrirse más a la colaboración e intercambio de ideas con otros profesionales, como por ejemplo los del mundo del Open Data.

Personalmente me gustaría saber más sobre las inquietudes de diseñadores y profesionales de la UX acerca del Open Data, puesto que además ya forman parte de él cuando aplican RDFa, schema o microdatos a los diseños Web por ejemplo, pero es que si nunca hablamos, y cuando lo hacemos no es de forma constructiva, difícilmente nos vamos a poder entender.

The next OGD frontier: Low and middle income countries

This post was first published at the OKFN blog in collaboration with Aman Grewal from the World Wide Web Foundation.

Last year we witnessed an impressive expansion of Open Government Data initiatives all around the world. We can assert without any doubt that it was clearly the year when Open Government spread throughout the world.

However, if we look at the map of the Open Government Data initiatives worldwide, we immediately detect than almost all of these initiatives incubated around Western Europe and North America. There is a big gap in the map, especially with reference to the developing countries.

The Challenge

Given the very apparent benefits of Open Government Data programmes, it is important to consider the development of similar programmes all over the world, and particularly in low and middle-income countries. But first, we need to go one step back and ask ourselves how we analyse whether a given country is ready to engage and sustain an OGD programme, and how much we know from existing initiatives.

The World Wide Web Foundation and CTIC Foundation took the first steps in this direction by conducting an assessment of the feasibility and potential of an OGD program in two countries – Chile and Ghana.

The key questions were:

  • Is the country ready to engage in an OGD initiative?
  • If so, what support might they need?
  • If not, why not, and what lesson can we take away from this assessment?

But while we were trying to give answers to these questions, new important questions arose:

  • What pre-conditions exist?
  • How much of what we know from existing initiatives is applicable?
  • What are the indicators that will enable the definition of OGD readiness in a given country?

We decided to start by developing a new methodology for OGD readiness assessment, based on our experience and a previous study commissioned by the Transparency and Accountability Initiative and written by Becky Hogge from early 2010. For the assessment completion, we developed a questionnaire and conducted desk research and country visits to interview people and organisations that may be key to any future success.

The findings from the studies have enabled us to start a global debate that we aim to carry forward.

Chile use case

Chile has always been a prosperous country and has long played a leadership role in Latin America. Now, more than ever, it has a government capable of decisively delivering on its vision and related governance schemes.

In the case of Chile, the political momentum is clearly present, and there are perceived interests and needs. Governmental willingness to adopt an OGD initiative is very clear at the executive layer and extends to the middle layer. In addition, the first strategic steps towards OGD are being taken, and pioneering pilot initiatives on information openness in Public Administration have been implemented. There are also several reuse initiatives being carried out by groups of civil hackers.

Nevertheless, Chile needs to establish an institutional roadmap related to OGD, putting in place all the regulations that are needed for implementation and developing a common methodology for Open Data, selecting and adopting open standard formats for data to facilitate reuse.

A good start is the recent incorporation of OGD as one of the key objectives of Chile’s digital agenda, but they still need to improve the means, processes and channels used to disseminate information and centralize access to a single common point or nodal agency. Finally, a dialogue on information sharing between the administration, civil society and the private sector should also be initiated with the objective of increasing awareness of reuse initiatives promoted by enthusiastic civil society groups.

We came to the conclusion that Open Government Data initiatives in Chile should rely on the transparency community, a very active group that would strongly support any initiative taken in favour of information openness.

Ghana use case

In terms of democracy, Ghana is one of the top few countries in Africa. For the common citizen, there is no apparent lack of respect for the democratic set-up, though there seems to be a trust deficit with respect to the politicians, either in power or in the opposition.

The required regulatory framework for an Open Data strategy is not currently present in the law, but is a work in progress. The RTI Act has been discussed since 2000 and its approval is imminent. However it has taken many years of study and the current draft has provisions for a number of exceptions. This has created friction in its smooth passage resulting in a number of revisions and subsequent delay. The RTI Act cannot exist in isolation and requires a supporting legal framework of data privacy and intellectual property. This work is still in its early stages and further advances can be expected in the short or medium term only if the RTI Act sees the light of day.

Civil society organizations in Ghana are very active in highlighting these issues and have become more vocal ever since oil reserves were found on a substantially large scale. They believe that this is the right opportunity for OGD initiatives that will not only improve the perception of a clean government in the minds of ordinary citizens, but would also strengthen the overall notion of a strong and transparent democracy. It would give them the right set of legal and technical knowledge to avoid the “oil curse”, which they are keen to avoid at any cost.

The opportunity here is two-fold. The RTI Act may give the much-needed legal framework for civil servants that would enable them to answer the data requests in a defined process. Simultaneously technology and implementation support with respect to the open interoperability framework would provide a much needed standardization platform to the apex IT agency of the country, a critical area where they are already soliciting support from external agencies. Civil society organizations like the Population Council are already running initiatives in few African countries related to data (demographic in this case) reuse by third parties that can act as examples and guideposts for OGD initiatives.

The case of Ghana has its own set of challenges and the situation may not be ideal. In such a scenario the groundwork to bootstrap OGD initiatives would be tougher, but at the same time the potential global impact would also be significant.

As Tim Berners-Lee observed, “It has to start at the top, it has to start in the middle and it has to start at the bottom.”

Make your contribution

We are publishing the draft versions of both the reports. Our objective is to gather comments from the OGD community. We invite you to read the reports for Chile and Ghana and send in your comments atogd-comments@webfoundation.org before the end of March 2011.

Your comments will assist the growing OGD community in the developing world by providing new tools, best practices and support.