Interpretar grans dades

Dimecres 10 de juny al cafè científic de la Casa Orlandai va venir la periodista Karma Peiró, especialitzada en Internet i las Tecnologies de la Informació i la Comunicació (TIC), per ajudar-nos a comprendre què són i com s’interpreten grans dades. A Karma li volíem preguntar moltes coses: gairebé tots fem servir aparells tecnològics, quin rastre deixem? De les dades obertes (Open Data), quin ús en podem fer per a analitzar-les i extraure conclusions? Les dades filtrades, com ara de Wikileaks, què representen?  

L’especialització

Primer Karma es va presentar. En acabar la carrera de periodisme el 1995 va trobar feina a Servicom, el primer proveïdor d’internet a Espanya, amb seu a Cerdanyola. Buscaven una periodista per a fer trucades oferint el servei, d’internet; era tan precoç que li tocava “evangelitzar”, explicant les oportunitats que oferia la xarxa per a trobar clients. Més endavant, va treballar per Luis Ángel Fernández Hermana, ara consultor de tecnologies de la informació, a la revista en.red.ando, on va coincidir perquè l’autora hi va participar esporàdicament escrivint crítiques de llibres científics. Karma ha treballat també per TV3, La Vanguardia, CatRàdio…Aquí trobareu el seu currículum.

Ordre entre les dades

Fa tres o quatre anys va passar-se a fer periodisme de dades, i, per això, organitza lesjornades de periodisme de dades i dades obertes, que cada cop acullen més participants i més ciutats. Per a explicar-nos quin és el camp de la seva expertesa, o l’objectiu de la seva curiositat, com prefereix, ens va fer el següent esquema a la pissarra:

Aquest esquema, més o menys, dirigirà les nostres reflexions: dades massives, dades obertes, periodisme de dades, i el dret a l’oblit de dades. A més també parlarem de dades preses sense consentiment, i que es fan servir per al control comercial i l’espionatge governamental. Justament la nit anterior van passar al programa sense ficció (TV3): Big Data, ciutadans sota control, que versava sobre el rastre informàtic que deixen les nostres dades a la xarxa, i que s’ha convertit en el Gran Germà de l’era digital.

Grans dades, grans números

Karma ens recomana el llibre “Big data. La revolución de los datos masivos” de Viktor Mayer-Schönberger y Kenneth Cukier; i també ens dóna números de l’exposició “Big Bang Data“, que hi va haver al CCCB. En el llibre de Mayer-Shönberg i Cukier, que té tres anys, donen moltes dades del que representa la quantitat de dades penjades a internet.

Aleshores era el triple que la quantitat d’informació de la Biblioteca del Congrés dels Estats Units, la més quantiosa del món. També poden dir que les dades a internet creixien (fa tres anys) quatre vegades més que l’economia mundial (i la capacitat dels processadors, nou vegades més). O que fa tres anys, hi havia vuitanta-mil milions de clients a you tube: es pujava una hora de vídeo per segon. O que el 2013 s’havien superat els quatre-cents milions de twits al dia. De tota aquesta informació, una bona part és soroll, però una altra és molt útil per a conèixer les activitats i les preferències dels usuaris.

Utilització comercial de les dades

Les dades de les nostres preferències són molt importants per al màrqueting. El periodista Evgeni Morozov, que escriu a El País, entre altres diaris, estudia les influències del comerç que controla els nostres gustos per dirigir el nostre consum; propugna que les empreses com ara Google, Amazon, Facebook, Twitter i totes les que obtenen moltíssima informació dels usuaris (no sempre conscients i informats), que les emmagatzemen i les estudien per a cercar determinades paraules clau que mostren tendències en els seus gustos, haurien de pagar per les dades i no obtenir-les semi-subreptíciament.

Utilització política de les dades

Quant a la utilització política de les dades sota l’excusa de la seguretat, el juliol de 2013, Edward Snowden, va exposar als diaris The Guardian y The Washington Post l’espionatge massiu del govern dels Estats Units. I, com aquesta, han sortit altres iniciatives de periodisme de denúncia d’activitats ocultades relacionades com ara el conegut Wikileaks, amb Julian Assange i el sergent Bradley, ara Chelsea Manning; També Chinaleaks, Luxleaks i Swissleaks. Un d’aquest, és el cas Falciani, que s’ha presentat a les llistes per a les darreres eleccions europees amb el partit X, que es defineixen com
Una red ciudadana organizada para acabar con la corrupción y conseguir Democracia y Punto“.

Internet profunda

Una molt bona part del que hi ha penjat a internet no es pot trobar pels buscadors tradicionals perquè no està indexada. Aquesta és l’anomenada internet profunda (Deep web), que es representa com iceberg amagat. D’aquesta informació amagada, una bona part està planejada justament per esquivar el rastreig indesitjat i, és òbviament, on es poden trobar les activitats delictives.

Una de les raons per a les quals no es pot indexar, és perquè l’ordinador no deixa rastre, està en webs dinàmiques. Hi ha un cercador de la internet profunda, el projecte Tor (The onion router); és un software que no deixa rastre en la cerca perquè fa servir els ordinadors que són en cada moment en aquesta xarxa. Aquest és el buscador de la ciberpolicia; dels venedors d’òrgans, del tràfic il·legal i dels periodistes.

Quins avantatges té aquesta xarxa?

Karma ens explica que, segons Luis Ángel Fernández Hermana,
la internet té quatre característiques que difícilment permetran que s’enfonsi. La primera és que no és jeràrquica, qualsevol pot escriure a qui vulgui, tothom hi té el mateix tracte, no hi ha hegemonies.

En segon lloc, la internet és distribuïda, no té un nucli central. Aquesta mena de connexió descentralitzada entre màquines es va aprendre bé amb els usos d’internet. Quan va començar la internet, com un projecte militar durant la guerra freda, l’arpanet, hi havia un sol ordinador central, que era el nucli de tots. Aviat es van adonar el risc de pèrdua de tota la informació, si es feia malbé aquest sol ordinador, i van descentralitzar la informació i crear xarxa. En el cas de Napster, d’intercanvi de música p2p (peer to peer) sense tenir en compte els drets dels autors, en detectar l’ordinador central a Austràlia van poder tancar-lo justament perquè era central, un sol node original. Pocs dies després, l’intercanvi de música es va fer entre diversos ordinadors en xarxa. Es va aprendre la lliçó.

En tercer lloc, succeeix en temps real, tot i que la informació passa segmentada pels cables (en molts casos submarins) i es torna a empaquetar en rebre-la a la nostra pantalla. I, la quarta és que l’emmagatzematge és infinit. Ara, aquesta darrera característica es qüestiona.

La internet té grans servidors, grans com blocs de cases, on s’emmagatzema la informació. Tota? Doncs, tota no. Documentalistes i historiadors estan un xic desesperats perquè, d’una banda, ja no es podrà resseguir la correspondència, a no ser que es guardin còpies en paper de missatges importants. I, tota la informació que es va penjar a la xarxa durant uns anys, està perduda.

A mesura que les webs s’han modernitzat, els tècnics que duien a terme aquesta modernització, no tenien en compte que en penjar la nova web, es perdia la informació anterior; de manera que no queda rastre. Tot i això, una ong (archives.org) es dedica a arxivar material que havia estat penjat en una època, però que es va perdre en els anys que ningú no es va preocupar en guardar-ho durant aquest gran forat negre de la memòria digital.

I, per apuntar un punt que no se sol mencionar, cal pensar en la despesa energètica que genera tota aqueta activitat. Habitualment no s’estudia què costa tota aquesta informació en moviment i en els reservoris. Potser caldria que ens hi miréssim i no féssim tant de soroll.

Dades obertes

Una gran revolució que permet aquest emmagatzematge massiu de dades, és que pot tenir a afavorir la democràcia. El 2013, per mandat de la Unió Europea, a Espanya, com als altres països, es va fer la primera llei de transparència, que demana comptes a les administracions públiques. Segons aquesta llei, les administracions han de publicar en què fan la despesa pública i amb qui. I, si un ciutadà té una qüestió referent a aquest assumpte, en un mes ha de rebre una resposta. Per llei.

De la llei espanyola es va dir, quan va sortir la llei publicada, que era més tolerant que la de Rwanda, i que les millors lleis són les d’Estats Units i d’Anglaterra, per rendre comptes del que anomenen accountability. Segons la llei espanyola, les comunitats autònomes també han hagut de fer les seves lleis de transparència, que s’aplicaran des del 30 de juny d’enguany; i els municipis hauran de fer les seves que seran d’obligat compliment el 2016. L’Ajuntament de Barcelona fa temps que publica moltes dades online, justament per augmentar la transparència. Ara, la transparència és un dels valors de qualitat de les institucions i entitats diverses. I aquesta transparència obliga a penjar els comptes públics.

Cal recordar que, de bon principi, a banda dels científics, pocs polítics es van prendre seriosament el fenomen internet. Fins que va tenir lloc el cas Lewinsky. Aleshores van començar a creure en el seu potencial i en les seves utilitats públiques. Ara, aquesta capacitat massiva d’emmagatzematge de dades provoca que en alguns casos, algunes persones s’hagin vist perjudicades per tenir alguna informació, veraç o no, a la xarxa que els perjudica. Per això també cal tractar el dret a l’oblit de les dades.

Periodisme de dades

Doncs, totes aquestes dades degudament tractades i interpretades, donen informació molt valuosa per a tenir una altra mirada, una altra forma de veure què i com es fa i què passa. És una nova forma de fer periodisme d’investigació, el periodisme de dades. Els periodistes diuen que poden fer scraping, gratar, per a seguir rastres, buscar utilitzacions curioses… per exemple, de l’ús que es fa de les càpsules de cafè. O de qualsevol altra pregunta per a la qual puguem obtenir dades.

És cert que hi ha una sobre informació per a la qual ens hem de refiar d’algunes veus per a tenir criteri, de la mateixa manera que fins ara hem tingut diaris o periodistes que seguim perquè ens semblen honestos. Els diaris canvien i la informació es busca de diferent manera. Una iniciativa va ser la de ProPublica, que va tenir el premi Pulitzer el 2010. Hi ha molta feina a fer per a comprendre i vigilar el que es fa amb els diners públics. Per a denunciar pràctiques fraudulentes o delictives, i per a prendre la nostra pròpia responsabilitat de ciutadans.

Imatges: wikimedia commons

Més informació

Bloc de Karma Peiró.

Bloc sense fulls de Saül Gordillo: Karma Peiró (08/06/2015)

Los datos masivos (o big data) son el nuevo oro.
Viktor Mayer-Schönberger. Diario Turin (05/08/2013)

Big Bang Data” CCCB (maig-novembre 2014)

¿Qué hacen con nuestros datos en internet? El País (12/06/2015)

¿A alguien le importa la privacidad? El País (14/06/2015)

Un jubilado de Sevilla le ha costado a las eléctricas más de 500 millones. El confidencial (08/04/2015)

La UE acuerda la ley que blindará el derecho al olvido en internet. El Periódico (16/06/2015)

En busca del nuevo Snowden. El País (22/01/2015)

articles a El País sobre Wikileaks.

El partido X se quita la máscara El País (08/10/2013)

Alternativa a whatsapp: telegram messenger.