mfioretti: privacy* + open data*

Bookmarks on this page are managed by an admin user.

35 bookmark(s) - Sort by: Date ↓ / Title / Voting / - Bookmarks from other users for this tag

  1. FREQUENT visitors to the Hustler Club, a gentlemen’s entertainment venue in New York, could not have known that they would become part of a debate about anonymity in the era of “big data”. But when, for sport, a data scientist called Anthony Tockar mined a database of taxi-ride details to see what fell out of it, it became clear that, even though the data concerned included no direct identification of the customer, there were some intriguingly clustered drop-off points at private addresses for journeys that began at the club. Stir voter-registration records into the mix to identify who lives at those addresses (which Mr Tockar did not do) and you might end up creating some rather unhappy marriages.

    The anonymisation of a data record typically means the removal from it of personally identifiable information. Names, obviously. But also phone numbers, addresses and various intimate details like dates of birth. Such a record is then deemed safe for release to researchers, and even to the public, to make of it what they will. Many people volunteer information, for example to medical trials, on the understanding that this will happen.

    But the ability to compare databases threatens to make a mockery of such protections.
    Voting 0
  2. Remember the health insurance uproar in the 1980s and 1990s? We're about to get it again. Thirty years ago, the public had torches and pitchforks out because insurers were overriding their doctors with decisions made hundreds of miles away by bureaucrats. Currently, the controversy is over high deductibles and low caps on payments. Insurers and employers say the shift of health care payments to the patient will lead to a more discriminating use of the health care system--but patients know a scam when they see one.

    Clearly, we have to get health care costs under control. After a few years of cost relief (possibly caused by the recession, although I believe health care reforms helped), costs are spiking again. Consolidation makes things worse, and the promised cost savings of Accountable Care Organizations aren't showing up for most of them yet. So let's look at what consumers can't do, and what institutions need to do to fix our health care system.
    Repaving the road to hell

    We did not get to managed care hell in the 1980s blindly. The insurers knew damn well what was going on--they knew that providers were overdiagnosing, overprescribing, and overtreating. Providers did this mostly because it was easy to do and they had no internal counterbalances to stop the practices. Patients loved the attention and the illusion of care, and everybody thought more was better. The insurers tried to be smart. They hired their own doctors and read up on the literature. But nobody can know a patient's needs from a thousand miles away, and micromanaging cases didn't work.

    So now we believe in patient engagement and all the hot air that comes along with that. It becomes a scam when insurers, providers, employers, and governments glom onto it to address the same old unremitting problem of skyrocketing health care costs, now one-fifth of the US economy. So everyone wants patients to look at prices before they go under the knife. Spot-checking suggests that transparency can lower prices. But wait, we've jumped over some premises on the way to a conclusion. When doctors and insurers are responsible for high prices, why does it become the individual patient's responsibility to lower them?

    Clearly, the reason that the burden of twenty percent of the economy gets thrown on backs of each individual patient is that insurers, providers, employers, and governments won't do what they need to fix the problem.

    Insurers won't clearly post how much they'll pay. They could also find out who is a competent provider, if they tried, but they won't do that.
    Providers won't be transparent about costs, especially when it comes to the full costs of end-to-end treatment.
    Governments won't track quality and force transparency.
    Employers won't take on these tasks when they're large enough to do so, and won't challenge the other large institutions to do their jobs.

    These are big accusations, and I have been collecting news items to back up how broken the system remains:

    Most states still get a grade of F for price transparency. Some have recently passed laws that may eventually lead to price postings, and some third-party services such as Clear Health Costs fill in some of the gap, but you still can't plan an MRI like purchasing a shirt. Insurers aren't doing the job either.
    Researching the quality of your doctors is a joke. Often you can't even tell which doctors are in the health plan you choose from an exchange. Furthermore, trivial data entry errors pollute CMS's database on provider quality.
    Quality measures aren't working. Center for Medicare & Medicaid Services is trying to streamline the reporting of quality measures, but it still requires manual entry, which taxes the time and memory of physicians and leads to errors in the data. Measures are also too subjective.

    There are two main reasons we can't figure out what a treatment costs: patients are unique, and quality of treatment varies.

    We've already seen how hard it is to collect quality data and make sense of it. Even clinical researchers don't really focus on quality. Studies of health care interventions (such as the adoption of electronic records, for instance) assume that quality means adherence to research recommendations for treatment. But did the patient actually get better? That's too hard to find out.

    Research recommendations are questionable: most are based on limited studies and are often reversed by later clinical research of by longitudinal studies that look at more representative populations and time frames.

    Determining the quality of treatment would require weighing dozens of factors about the condition of the patient and how the operation was conducted. Many reformers would like doctors to adopt a rigorous evaluation system like the flight operational quality assurance program used by airlines. This would probably be very beneficial for quality, but would not be useful for rating individual doctors or facilities.

    Add to these hurdles the almost inevitable risks of complex, intrusive programs: they can raise costs by adding bureaucracy, drive talented practitioners from the field, and get in the way of innovation.

    But technology may help. Here are some things that the health care field could do for more transparency in price and quality:

    Adopt standards for recording clinical information--not rigid and impoverished codings like ICD, but databases that can reflect each patient's condition and draw relationships between them, like the Semantic Web. Analytic tools could then determine such things as how much a patient's knee pain is related to obesity.
    Track outcomes better. Follow patients for long periods of time after each procedure and record changes in rigorous, standard formats, taking as much data as possible from objective measurement devices rather than patient reports. Patient reports are also important, but we need hard data to evaluate physicians.
    Provide open-source data analysis tools to each health care provider, who can run them over the full patient information, including identifying information. Sharing patient data is usually risky and requires de-identification that weakens the data's value. If providers can run the tools, only the results need to leave the facility. We lose some of the serendipitous joyw of running tools on huge data sets, but gain richer data at each site.
    Voting 0
  3. Questa settimana ci troviamo di fronte a un caso in cui la privacy si mette di traverso a un’iniziativa privata che sfrutta gli “open data”. Avevamo già parlato lo scorso ottobre della scarsa limpidezza delle regole che governano la diffusione di provvedimenti giudiziari ‒ specialmente sul lato tutela della privacy e diritto all’oblio ‒ con un articolo dal titolo abbastanza eloquente “Privacy e sentenze: un quadro che non quadra (neanche per la Cassazione)“. Ora il tema torna ancora più attuale e mi tocca in prima persona; infatti, la scorsa settimana ho lanciato le versione beta di, una piattaforma open per l’informazione giuridica che raccoglie (per ora) tutti i provvedimenti resi liberamente accessibili in rete da Corte Costituzionale, Corte di Cassazione e Consiglio di Stato.


    Più di seicentomila provvedimenti raccolti in un unica banca dati, resi più facilmente consultabili da un motore di ricerca ad hoc e ottimizzato per le specifiche esigenze; con in più la possibilità per gli utenti di intervenire attivamente caricando a loro volta sentenze o scrivendo massime e note a sentenza secondo la logica di un “wiki”, appunto. Si tratta di un progetto su cui sto lavorando “in gran segreto” da circa due anni e su cui ho investito non poche risorse; ero comunque già preparato al fatto che la sua messa online avrebbe generato un certo dibattito per i punti dolenti che va a toccare in materia di copyright, trasparenza, privacy.

    Da un lato ho avuto moltissimi feedback positivi da parte di coloro che l’hanno visto come una meritoria operazione nella direzione della trasparenza e del libero accesso all’informazione (come saprete, i database giuridici sono sempre stati appannaggio di poche case editrici e sono sempre stati trattati in ottica proprietaria); dall’altro lato ho ricevuto alcuni inviti a riflettere sulle implicazioni che un progetto come il mio può avere a livello di privacy e oblio, dato che amplifica la possibilità che i dati personali presenti nelle sentenze siano diffusi oltre i confini imposti dal diritto.
    Voting 0
  4. JurisWiki, come dice il nome, è basato anche sul crowdsourcing: come sui wiki, chiunque può caricare nuove sentenze oltre alle diverse decine di migliaia già inserite dallo staff del progetto. Gli utenti possono anche contribuire perfezionando e commentando i provvedimenti, scrivendo massime, aggiungendo annotazioni e inserendo link ad altri provvedimenti o testi legislativi.

    libero accesso all’informazione giuridica. Tema che forse interessa a pochi, ma come l’accesso aperto alla letteratura scientifica riguarda quello che dovrebbe essere un bene comune (le sentenze dei giudici, per legge in pubblico dominio) che spesso viene “rinchiuso” in database proprietari e venduto a caro prezzo.


    Il mercato delle banche dati giuridiche in Italia è infatti un oligopolio di circa tre o quattro grandi editori e di altri soggetti più piccoli che offrono servizi più verticali e limitati. Si tratta di immense banche dati che in verità non contengono solo i testi dei provvedimenti giurisdizionali, ma anche il loro commento da parte dei giuristi specializzati, le massime estratte, il collegamento con la normativa vigente e con le riviste giuridiche.

    Il lavoro dunque è certamente complesso, richiede forti competenze e investimenti. Questi database sono stati commercializzati per anni sotto forma di CD o DVD e nell’ultimo decennio si sono spostati sul web, con un accesso rigorosamente a pagamento. Pur non essendoci un copyright sui testi delle sentenze (grazie all’art. 5 legge 633/1941) esiste però un copyright su tutto il resto, e vi è comunque un diritto sui generis sull’organizzazione del database.

    Le case editrici vantano dunque, legittimamente, dei diritti su queste loro opere.

    D’altra parte, il web è pieno di testi parziali o integrali di sentenze (esistono infatti vari siti di informazione giuridica), e da qualche anno le stesse corti hanno messo online i testi sui loro siti ufficiali.

    Quello che non esisteva era un unico collettore di questi documenti, che li organizzasse secondo un unico standard e li rendesse il più accessibili possibile, con un esplicito approccio open.

    JurisWiki riempie questa lacuna, con un dichiarato spirito “open data” e un’impostazione di sito collaborativo aperto alla contribuzione di chiunque.

    Oltre le difficoltà tecnologiche e di catalogazione, dal punto di vista giuridico i dubbi più grandi riguardano il copyright e la privacy. Quest’ultima è sicuramente più problematica, dato che non esiste consenso unanime sulle modalità con cui gestire i dati personali contenuti in questi documenti (come spiegato in questo articolo scritto dallo stesso Simone).

    Infatti, benché il sito sia stato messo online solo il 21 aprile scorso, Simone è stato costretto ad oscurare momentaneamente tutti i documenti provenienti dalla Corte di Cassazione (più di 400 mila sentenze) dopo la segnalazione di alcune falle nel sistema di oscuramento dei dati personali presenti. Falle che – è importante precisarlo – dipendono non da JurisWiki ma dalla fonte originaria, cioè in questo caso dalla stessa Cassazione, che continua a diffondere quei dati personali sensibili sul suo sito ufficiale. Il tema ha generato anche un interessante scambio di opinioni su Twitter tra Aliprandi e l’ex Garante Privacy Pizzetti.
    Voting 0
  5. Non vedo, nel duplice “svarione” del Comune di Oristano un disegno volto a dimostrare i limiti del rapporto tra trasparenza e privacy, ma, più semplicemente, una sottovalutazione dei problemi legati alla diffusione di dati personali (ancorché non sensibili) in Rete, in violazione dei principi di pertinenza, non eccedenza e necessità. D’altronde, è lo stesso Comune ad aver ammesso come la seconda pubblicazione sia avvenuta “per errore”.

    E, come sappiamo, la trasparenza va intesa come trasparenza della Pubblica Amministrazione nei confronti dei cittadini, non viceversa.

    Quindi secondo te è l’ennesimo caso di un’amministrazione pubblica che deve ancora prendere confidenza con questi temi?

    Si è trattato, a mio parere, di veri e propri “incidenti di percorso”, a seguito dei quali degli elenchi contenenti dati personali non essenziali rispetto al fine (ricordiamo che si trattava di pubblicazioni in albo pretorio online, ai fini di pubblicità legale, e non nella sezione “amministrazione trasparente”) sono stati, erroneamente pubblicati unitamente agli atti ai quali erano collegati.

    Questi incidenti di percorso sono quindi in palese violazione della normativa vigente sulla tutela dei dati personali?

    Che questa pubblicazione non risponda ai criteri stabiliti dal Garante, mi pare non si possa discutere.
    Voting 0
  6. guai a negare che interrogando il più grande database pubblico di giurisprudenza mai reso accessibile online, ci si può trasformare anche in straordinari “ficcanaso digitali”, ed acquisire una montagna di informazioni private relative al nostro vicino di casa, al datore di lavoro o ad amici vicini e lontani venendo a sapere quando e perché si sono separati, a quanto ammonta l’eredità che dopo una lunga causa si sono visti assegnare o perché sono stati licenziati o hanno licenziato qualcuno.

    Basta semplicemente digitare il loro nome e cognome ed il gioco è fatto.

    Ed è proprio il rischio di questa deriva voyeuristica “tritaprivacy” che sembra aver armato la penna del Presidente dell’Autorità Garante Antonello Soro ed averlo indotto a scrivere al Primo Presidente della Suprema Corte di Cassazione, Giorgio Santacroce per rappresentargli la propria preoccupazione per l’iniziativa assunta – evidentemente senza consultare gli uffici del Garante – ed il forte sospetto che si sia trattato di una decisione non conforme alla disciplina sulla privacy.

    La notizia in sé non può passare inosservata perché l’Autorità cui la legge attribuisce il compito di garantire la corretta applicazione della disciplina sulla privacy, avanza il dubbio – sebbene con grande tatto e cortesia istituzionale – che la Suprema Corte di Cassazione alla quale la legge attribuisce il compito di garantire la corretta applicazione di ogni altra legge – inclusa la disciplina sulla privacy – abbia assunto una decisione in contrasto con il Codice privacy.
    Tags: , , , by M. Fioretti (2014-10-17)
    Voting 0
  7. Per capire dov’è il problema basta inserire nella ricerca un termine “sensibile”, ad esempio “HIV”: si conosceranno immediatamente nome, cognome e patimenti di coloro che hanno contratto l’AIDS da trasfusione, magari 15 anni fa, ed hanno avuto la sfortuna di finire, dopo decenni, avanti la Suprema Corte nella causa intentata all’ospedale. I dati idonei a rivelare lo stato di salute non possono essere diffusi, ma sul nuovo sito della Cassazione, nelle cause per responsabilità medica, sono da oggi disponibili sul web tutti i patimenti e le imbarazzanti patologie causate dalla malpractice del cerusico di turno, con nome e cognome dei protagonisti. Amici e parenti (o casualmente qualche milione di persone) ad esempio possono leggere senza sforzo sul loro tablet, semplicemente inserendo nella stringa di ricerca il nome o la patologia, che il Sig. Nicola G. identificato con tanto di codice fiscale, è affetto da disfunzione erettile dopo un intervento subito nel 1999, e che la colpa è del chirurgo C.G. Ed anche il chirurgo C.G., pienamente identificato, può rinunciare grazie a Sentenzeweb all’oblio sulla triste vicenda accaduta 15 anni fa. Ovviamente i dati sanitari, nelle cause civili, sono solo il più evidente dei problemi: ma ci sono fallimenti, lesioni, incidenti, licenziamenti per giusta causa e chi più ne ha più ne metta. E siamo solo nel settore civile.

    Come scriveva Calamandrei “sotto il ponte della giustizia passano tutti i dolori, tutte le miserie, tutte le aberrazioni, tutte le opinioni politiche, tutti gli interessi sociali“. Se è vero che la pubblicità e la trasparenza sono fondamentali nel sistema giustizia a garanzia dei cittadini, l’inattesa diffusione sul web delle sentenze senza alcuna cautela a tutela della riservatezza delle parti coinvolte mi pare una sorta di tradimento.
    Voting 0
  8. Se anche la Cassazione, massima espressione della giurisprudenza e quindi massimo riferimento per l'interpretazione delle norme, può ricevere un simile invito, è evidente che i principi che regolamentano la diffusione di dati personali contenuti in atti pubblici come le sentenze non sono affatto limpidi e anch'essi sono soggetti a valutazioni molto delicate sul bilanciamento degli interessi da tutelare. Si trovano qui in conflitto il sacrosanto interesse pubblico alla trasparenza e conoscenza delle decisioni della Suprema Corte e l'altrettanto sacrosanto interesse dei soggetti privati coinvolti nelle decisioni alla tutela della loro sfera privata (che alcuni declinano anche come diritto all'oblio).

    La questione è quindi estremamente complessa, e si fa particolarmente centrale ora che la tecnologia permette un facilissimo reperimento e costante monitoraggio delle informazioni da parte di chiunque. Una volta era diverso: le sentenze erano pubblicate solo in raccolte cartacee, successivamente sono arrivate le banche dati su cd-rom. Ora tutto passa attraverso Internet ed è facile che qualcosa sfugga di mano.

    E, attenzione, non si parla solo dei dati personali delle parti dei processi, ma anche dei dati dei loro famigliari che per esempio hanno fornito testimonianze o semplicemente sono stati citati per descrivere i fatti. O ancor peggio, nelle sentenze penali, si trovano i dati personali delle vittime dei reati, e spesso anche la ricostruzione di come siano avvenuti i reati: cose che una parte lesa che ha dovuto subire già anni di processo vorrebbe al più presto scrollarsi di dosso, e che grazie a internet diventano invece facilmente reperibili da tutti.
    Voting 0
  9. Less ambitious projects elsewhere show both how difficult all this will be—but also that it seems possible. In America has got little further than creating a list of available address files; many counties have not been able to afford to digitise theirs. Ian Dees, one of the group’s founders, hopes to find the time and money to tour the country to collect paper files and scan them in.

    In France, by contrast, the National Open Address Base (BANO), an open-address project, has merged information from local cadastres (registers) with data from OSM volunteers and other sources to create a file with more than 15m addresses, about 80% of the national total. Christian Quest, who launched the project, doubts addresses are sufficiently exciting to attract enough volunteers to keep it up to date, but hopes to get firms and government agencies to share their data.

    Concerns about privacy may also slow the creation of open-address registries. In Germany, for instance, it is not clear whether physical addresses and geographical co-ordinates count as personal data, even if no name is linked to them. Some certainly think so; in former East Germany suspicious souls threw bricks at an OSM volunteer collecting addresses (they missed). And fire departments and other highly error-sensitive users may be slow to rely on unofficial sources for addresses, not least for fear of getting sued. But such registries may end up being more accurate, since errors are more likely to be spotted and fixed, and they are easier to keep up to date.|int
    Voting 0
  10. The last panel of the day focussed on policy. Christine O’Keefe (CSIRO), Keith Spicer (ONS), Tanvi Desai (ADS) and our own Jeni Tennison (ODI) discussed data access mechanisms and policy implications. There is a spectrum of access methods and a more granular approach of who needs access and what they want to access will put in better safeguards for data sharing.

    Statistical disclosure control in the future may involve specialist hackers and for data that is not open, records and accountability of who has access, are crucial to engender trust.

    Anonymisation remains an important tool for anyone publishing data. While we should have sophisticated discussions on the future of personal data in our society, the crucial step for an individual is to consider data in its context.
    Voting 0

Top of the page

First / Previous / Next / Last / Page 1 of 4 Online Bookmarks of M. Fioretti: Tags: privacy + open data

About - Propulsed by SemanticScuttle