¿Qué son Datos Abiertos? (I)


Por Celeste G. Box

 

Hace unos días, la Fundación Gobierno Abierto Colombia (a través de su presidente, el siempre atento Alexander Plata Pineda) se conectó con nosotros para pedirnos un vídeo para el #OpenDataDay 2016, con tres consignas simples: qué son datos abiertos, para qué sirven y cómo era la situación de nuestro país (Argentina). Agradecidos por el convite, hicimos una Prezi (disponible aquí), que luego capturamos en el vídeo (embebido al final de este post). En este post nos dedicaremos a la primera parte del guión del video (es decir, qué son datos abiertos). En la próxima publicación, veremos la importancia de los datos abiertos para la sociedad y a la situación actual de la Argentina.

 

 

¿Qué entendemos por Datos Abiertos?

 

Son datos integrales disponibilizados online sin limitaciones de acceso y uso (licencias, derechos de autor, patentes, marcas o secrecía comercial), para ser reutilizados y redistribuidos por cualquier persona. Presuponen formato electrónico abierto (esto permite la combinación de conjuntos de datos de diferentes orígenes, para la posterior re-utilización y difusión libre) y de forma automatizada (procesables por máquinas). Los datos deben estar completos, ser primarios, actualizados, ser susceptibles de tratamiento, no ser discriminatorios ni propietarios.

 

¿Pero qué significa ‘abierto‘?

Se concibe la apertura desde tres perspectivas (vectores):

1. La disponibilidad y acceso: la información debe estar disponible como un todo conveniente, modificable y sin costo de reproducción, preferiblemente descargándola de Internet.
2. La re-utilización y redistribución: los datos deben ser provistos bajo términos que permitan reutilizarlos y redistribuirlos, e incluso integrarlos con otros conjuntos de datos.
3. La participación universal: toda persona debe poder manipularlos. No debe haber discriminación alguna en términos de esfuerzo, condición personal o grupal. Nadie -individuo o grupo- precisa acreditar alguna particularidad para acceder al dato.

 

Cualquier dato puede ser abierto. Nosotros nos interesamos principalmente por los datos de gobiernos, pero esperamos que esto sea sólo temporal ya que, a medida que los datos gubernamentales abiertos (OGD) sean usuales, también deberíamos avanzar en los datos abiertos de empresas, organizaciones de la sociedad civil (OSC), sindicatos, instituciones de enseñanza e investigación, por ejemplo.

 

¿Qué es OGD?

Para CEPAL (2012), todo dato producido por administraciones publicas, es un dato público. Los datos abiertos gubernamentales son generados por gobiernos, administraciones y entidades públicas autárquicas en sus funciones, por lo que deben estar a disposición para cualquier fin, en formato abierto para su reutilización y difusión, sujetos a requerimiento de atribución y compartirse de la misma manera. Cuando se trata de abrir datos, el foco se pone en información despersonalizada (no asignada a individuos con nombre y apellido o razón social), lo que nos lleva a las limitaciones no-técnicas de la apertura: es posible no concretar la apertura en datos que afecten a derechos fundamentales, privacidad (informaciones personales) y razones de seguridad nacional. Existen restricciones más prosaicas, pero no resultan efectivas en la OGD, por lo que aquéllas que prevendrían el uso comercial de los datos o las restricciones de uso para ciertos propósitos, no aplican a los datos abiertos.

 

¿Qué es Open Data?

Open Data es una filosofía, un movimiento, un principio que propone poner a disposición de la sociedad los datos que gestiona la administración pública en formatos fáciles de manipular. Cualquier ciudadano o empresa puede analizar, reutilizar y redistribuirlos, generar servicios y así mejorar la transparencia de las AAPP, como crear servicios públicos al interior de ellas o bien de manera privada (y comercial). El objetivo es que ciudadanos y empresas re-aprovechen para generar valor económico, generar ideas que generen más datos, conocimiento o servicios (económicos y/o sociales).

 

¿Open Data o RISP?

Los términos Open Data y RISP (=Reutilización de la Información del Sector Público) implican poner a disposición de la sociedad datos crudos de las AAPP. Pero aquí terminaron las similitudes. Las diferencias empiezan cuando vemos que los Datos Abiertos persiguen ofrecer formatos libres (no propietarios) sin pago por el uso de datos, mientras en la RISP se prevé la posibilidad del pago y la publicación sin restricción de formato.

 

Los principios del Open Data (Decálogo 2007):

En diciembre de 2007, en Sebastopol (California), unos treinta (hack)activistas del open government se juntaron a desarrollar unos principios generales para los datos abiertos gubernamentales. Dado que la información resulta más valiosa en tanto que es compartida, los datos abiertos promueven el activismo cívico, mejoran el bienestar público, y hacen un uso más eficiente de los recursos públicos. Estos ocho principios de la OGD propenden a gobiernos más efectivos y transparentes.

Vale aclarar que para esta declaración de principios, un dato refiere a información electrónica alojada o grabada -como pueden ser documentos, bases de datos, transcripciones de audio, grabaciones audiovisuales de eventos-. Pero sabemos que existe información no electrónica -cualquiera en soporte físico-, la que no resulta alcanzada por estos principios. Claro que es deseable que esos recursos se hagan disponibles de manera electrónica con la mayor premura, por lo que cuando acontezca quedarán alcanzados por estos principios.

  1. Públicos. Se deben abrir todos los datos de carácter público (=no sujetos a restricciones de privacidad, seguridad nacional, derechos de autor o privilegios de ningún tipo). De este modo, ‘Público’ significa que los principios de OGD no establecen qué datos deberían ser públicos y abiertos. Es decir, no dividen aguas en base a algún criterio moral, político o de cualquier índole diciendo ‘este dato debería ser abierto y este no’. Sólo señalan lo que es un dato público. Por otra parte, principios como la privacidad, la seguridad y otras cuestiones pueden ser aplicados a los datos y restringirlos de manera legal y legítima. De este modo, estos principios sólo especifican las condiciones que los datos deberían cumplir para ser abiertos.
  2. Detallados. Deben publicarse sin ningún proceso previo, modificación o agregado, y manteniendo el mayor detalle (granularity).
  3. Actualizados. Deben ser liberados con la frecuencia necesaria para mantener valor y pertinencia.
  4. Accesibles. No debe haber restricción para el uso ni el propósito (el mayor rango de usuarios para el mayor rango de propósitos).
  5. Automatizados. Debe existir mínima estructuración para ser procesados por las máquinas y así garantizar reutilización automática.
  6. Libre disponibilidad. Deben estar disponibles sin necesidad de acreditación o identificación previa.
  7. Abiertos. Deben presentarse en formatos que no dependan de una entidad o de adquirir algún tipo de software privativo.
  8. Libres. Deben estar libres de derechos, patentes, copyright, derechos de privacidad, seguridad , secrecía comercial o privilegios que puedan estar regladas por otras normas. Pero, como se aclaró en el punto 1, una privacidad razonable, argumentos de seguridad y restricciones pueden ser permitidas.

 

El sistema que estos activistas establecieron, tiene pretensiones de sostenerse por cooperación, por lo que debería existir una instancia de revisión -una suerte de cuerpo institucionalizado que asesorara a  infomediarios y consumidores-, como también que vele por la integridad de estos principios (ya sea entre quienes publican y usan los datos, como por el uso de los ocho principios que se haga en las administraciones públicas).

 

¿Qué es un data set?

Es la categorización de los datos en catálogos para ser fácilmente indexados y localizados, con el agregado de metadatos importantes (descripción, frecuencia de actualización, formato o licencia de uso). Es en este momento cuando debemos introducir los parámetros para ordenar la intensidad de la apertura de datos, y para ello necesitamos del sistema de Cinco Estrellas de Tim Berners-Lee/Web Foundation:

 

  1. Estrella (OL: Open License): pone a disposición información en la web bajo una licencia abierta (PDDL, ODC-by y CC0), pero los datos están aún encerrados en un documento (aunque tenga licencia libre, lo que encierra es la no estructuración, como en el caso de PDF -Portable Document Format-, formato de almacenamiento de documentos compuesto -imagen vectorial, mapa de bits y texto- de Adobe Systems, que puede presentar una imagen con datos imposibles de extraer con facilidad). En esta instancia existe disponibilidad de información, pero la falta de estructuración, los hace ilegibles por las máquinas… Esto puede resultar contradictorio, pero no lo es: a veces no es posible publicar datos en formatos estructurados, por lo que se apela a formatos abiertos como OpenDocument, enlaces a otros sitios web, mapas interactivos, RSS (que actualiza constantemente pero tracciona información no detallada). Como consumidores, en este nivel podemos conocer un dato, imprimirlo, guardarlo localmente, integrarlo en otro conjunto de datos o sistema, intercambiar y distribuirlo. Como infomediarios, son simples para publicar y no es preciso explicar que se está habilitado a compartirlos.
  2. Estrellas (OL, RE: Readable): En este nivel, se pone datos al alcance de las personas en formato estructurado (=legible por las máquinas) pero los datos están en un documento cerrado (=software propietario). Como consumidores, podemos hacer lo mismo que con el formato de una estrella, pero además se puede manipular esa información (agregar información, calcularla, cruzarla, visualizarla) con software propietario, y exportarla a otro formato estructurado. Como infomediarios, aún continúa siendo simple de publicar.
  3. Estrellas (OL, RE, OF: Open Format): hace la información disponible vía Web, y además en un formato abierto (CSV, Comma-separated values formato sencillo de texto plano para representar datos en formato de tabla, las columnas separadas por comas o punto y coma, y las filas por saltos de línea. Es muy sencillo de utilizar y fácil de exportar desde xls, por ejemplo) es decir, accesible a cualquiera. En esta instancia, ya es preciso utilizar XML (Lenguaje Etiquetado Extensible), un metalenguaje simple que interpreta diferentes lenguajes -intercambia información estructurada entre diferentes plataformas-. Existen otros formatos estructurados en menor o mayor medida como SHP, ODS, y el conocido JSON (JavaScript Object Notation), un formato ligero para intercambio de datos base JavaScript (de sintaxis simple por lo que facilita el tratamiento en navegadores y reduce e flujo de datos entre cliente y servidor). Otros formatos útiles de este nivel son los de información geográfica como KML, WMS, WCS o WFS. Pues bien, allende los formatos, en esta instancia los datos están en la web pero no son de la web. Como consumidor, ahora se tiene las ventaja de manipular sin tener que comprar software propietario. Como infomediario, resulta aún fácil de publicar, pero se pueden necesitar plug ins para exportar los datos desde un formato propietario.
  4. Estrellas (OL, RE, OF, URL): En esta instancia los datos son de la Web, tienen una URL y pueden recibir bookmarks. En este nivel, la URLs indica el origen y propiedades, por lo que es preciso adecuarse a los estándares de la W3C (RDF-XML, Resource Description Framework o Infraestructura para Descripción de Recursos, un modelo estándar para el intercambio de datos basado en XML que intercambia y enlaza datos y recursos sin que pierdan su significado, lo que facilita la reutilización). Es decir que como consumidor, se puede alojar el material, se pueden reutilizar partes de esos datos usando herramientas preexistentes (porque pueden ser compartimentados por quien lo publica), y se los puede combinar. Como infomediario, al tener control granular de los datos, se puede optimizar su acceso (almacenamiento en caché, etc.)
  5. Estrellas (OL, RE, OF, URL, LD: Linked data): En este nivel, los datos están linkeados entre sí. Están en contexto. Es decir, son datos de la Web, linkeada a otros datos, que se pueden mostrar, intercambiar y conectar con URLs desreferenciables. Tanto los consumidores como los infomediarios se benefician del efecto network (un usuario se beneficia de la existencia de otros usuarios). Como consumidores, aquí podemos descubrir más datos relacionados, aprovechar y aprender del esquema de los datos… y tener paciencia con los links rotos que podemos encontrar (los ‘error 404’ pueden ser usuales). Como infomediarios, al publicarse datos en ecosistema, resultan más descubribles y se incrementa el valor.

 

Antes de continuar, una aclaración. Es necesario detenerse un poco en esta cuestión del contexto y los datos vinculados (linked data). La Web Semántica, construida en RDF (el estándar W3C para Web Semántica, que describe recursos web, especifica metadatos y representa información), no implica necesariamente que los datos deban ser gratuitos, libre disponibilidad o abiertos como postula Open Data (una empresa puede publicar datos linkeados -interoperan con RDF- pero en una red privada). Por eso, es necesario hablar de Linked Open Data o bien de Datos abiertos enlazados. Así indicamos que son datos abiertos en RDF, y el usuario puede enlazar fuentes, instituciones u organizaciones, explorar y combinarlos sin restricciones. Y esto será un nuevo escalafón de la Web Semántica, que incorporará información que describe el contenido, su significado y la relación de los datos (y hará de la Web una gran base de datos -la Web de Datos-, donde convivirán múltiples bases distribuidas, abiertas y enlazables).

 

Pasando en limpio, si pensamos en una estrategia de Datos Abiertos Vinculados en la gestión, éstos deben cumplir con las anteriores condiciones del siguiente modo:

  • Contar con datos disponibles en la web, en cualquier formato siempre y cuando sea de licencia abierta,
  • La situación mejora si están estructurados (para permitir el tratamiento automático),
  • Y mejor aún si están almacenados en formato no propietario.
  • Si a esto se le agrega URLs para identificar y referenciarlos, sólo resta para que la apertura sea completa:
  • Tenerlos vinculados a otros datos para proporcionar contexto.

 

 

Les dejo el vídeo completo, de unos veinte minutos aproximadamente:

 


Acerca de Celeste G.Box

Politóloga. Diseño y drección Cátedra Libre Gobierno Abierto (UNLP) | #GobiernoAbierto #ParlamentoAbierto #SocialMedia en la AAPP | Contacto personal: mcgb_br@yahoo.com.br ~ Twitter @CelGBox ~ Skype mcgbox

Dejar un Comentario