Dov'è l'informazione che trascuriamo per guardare i dati?
Dov'è la conoscenza che trascuriamo per guardare l'informazione?
Dov'è la saggezza che trascuriamo per guardare la conoscenza?

Le nostre dita sono dieci. Ed è impressionante quanto della nostra cultura dipenda da questa banale affermazione. Ma non tutti hanno dieci dita! Ecco, il diavolo si nasconde proprio nelle eccezioni, minando le nostre certezze.

Tendiamo a deprimerci non appena prendiamo atto che non è realistico attendersi una risposta univoca a una domanda, anche a quelle più banali. Anzi, non possiamo neppure pensare di ottenere la stessa risposta alla medesima domanda formulata più volte. Le eccezioni ci sono sempre.

Eppure i nostri sistemi informatici ci hanno abituato a un rassicurante determinismo: 2+2=4!

Ma anche questa è un'illusione; ecco perché l'Information Technology, così come la conosciamo, sta entrando in crisi. Perché le eccezioni sono la nostra reale ricchezza, altro che il diavolo.

 

Ecco dieci riflessioni sul Semantic Web e sul suo ruolo nell'evoluzione dell'Information Technology dei prossimi dieci anni.

Il Semantic Web in dieci (app)punti:

  1. all'inizio c'è la Persona con le sue relazioni sociali.
  2. La Persona esprime un bisogno.
  3. Il bisogno è, sempre più spesso, indirizzato da servizi e da applicazioni IT.
  4. Le applicazioni sottendono un modello dei dati.
  5. Il modello dei dati è popolato da agenti.
  6. Gli agenti interrogano uno o più reasoner.
  7. Il reasoner interroga uno o più triplestore.
  8. Un triplestore contiene la conoscenza ed è alimentato da Linked Data. In altre parole, contiene dati legati tra loro da relazioni definite in Ontologie. I triplestore spesso contengono incompletezze, inconsistenze, dati duplicati o errati.
  9. Regole e Ontologie consentono ai reasoner di inferire (i.e. dedurre) le relazioni mancanti e di trovare inconsistenze tra i dati.
  10. L'inconsistenza e/o l'affidabilità dei dati è valutata grazie alla fiducia che la Persona ripone nelle sue relazioni sociali (che determinano l'affidabilità delle fonti) ed in generale nella sua cultura.

 

Se alcuni termini che compaiono in questo elenco  vi sembrano oscuri, potete cercarne una definizione in questo articolo.

Dieci riflessioni

  1. Le informazioni sono dati organizzati in un modello.
  2. Tutte le informazioni sono (o possono essere) Linked Data.
  3. La nostra cultura è l'insieme dei Linked Data cui abbiamo accesso e su cui riponiamo la nostra fiducia.
  4. Gli agenti (intesi come processi software) hanno il compito di selezionare reasoner e i triplestore adatti a uno specifico scopo. Gli agenti incorporano l'intelligenza creativa (euristica) nella ricerca dei reasoner "giusti" per un determinato contesto e determinano il rank delle informazioni. Sono gli eredi dei motori di ricerca. Il Google del futuro sarà organizzato come un'Agenzia.
  5. Le informazioni disponibili (i.e linked data) devono essere di quantità e qualità sufficiente per rispondere alle richieste degli agenti, anche tenendo conto della potenza del reasoner. In assenza di un reasoner, o di un reasoner debole, le inferenze devono essere costruite esplicitamente (materialization) introducendo un potenziale errore temporale (nel tempo intercorrente tra due aggiornamenti).
  6. A differenza di quanto si potrebbe pensare non è il Reasoner l'elemento critico del Semantic Web. Il Semantic Web è tollerante e poco esigente: "poca semantica fa fare molta strada".
  7. Le informazioni di base possono essere inconsistenti, contraddittore o sbagliate. Il ranking dei dati, delle relative fonti, può essere fatto solo attraverso reti di "fiducia" influenzate dai rapporti sociali e dalle conoscenze esistenti.
  8. Le ontologie sono concettualizzazioni condivise e come tali sensibili a cambiamenti nella società.
  9. La disponibilità di informazioni è comunque soggetta a limitazioni determinate da information hiding (es. segreti industriali) e dal diritto (es. privacy). Le limitazioni di visibilità hanno sempre carattere personale e/o sociale.
  10. La fiducia e la cultura permettono alla Persona di discernere e valutare la qualità delle informazioni e delle deduzioni. Chiamiamo questa capacità Saggezza.

Quattro pre-visioni

  1. L'attuale modello deterministico alla base dei servizi IT è entrato in crisi e dovrà essere sostituito da un modello più flessibile e complesso. Infatti, non ci si può più attendere la medesima risposta alla stessa domanda anche in presenza di dati immutati perché:
    1. I bisogni personali sono influenzati dalla Società e viceversa in un continuo e mutevole equilibrio,
    2. le Ontologie devono essere socialmente condivise e quindi sono sensibili ai cambiamenti sociali,
    3. la quantità di dati potenzialmente disponibili è enorme. I dati più importanti potrebbero anche essere nascosti nella long tail del semantic web. L'attuale tecnologia non è in condizione di gestire tutti questi dati. Per molto tempo ancora i dati disponibili saranno quindi filtrati da motori di ricerca soggetti a bias e manipolazioni.
    4. Il livello di visibilità delle informazioni è soggetto a bruschi e sostanziali mutamenti (vedi wikyleacks.)
    5. La rete della fiducia che governa il ranking delle informazioni e aiuta a scegliere quale dato usare è influenzata da bisogni, società e ontologie (ad esempio il concetto di "amico"): tutto mutevole.
    6. I meccanismi tecnici di cache e simili artifici, indispensabili per diminuire i tempi di risposta delle applicazioni potrebbero introdurre errori dovuti da disallineamenti temporali nei dati.
  2. Il livello di "Proof" già previsto da Tim Bernes Lee nell'architettura del Semantic Web è fondamentale. Occorrerà sempre essere in grado di giustificare una risposta tenendo conto:
    1. dei dati,
    2. delle regole di produzione,
    3. della rete di "trust",
    4. del bias introdotto dai motori di ricerca e agenti,
    5. dei potenziali errori di sfasamento temporale introdotti dai meccanismi di cache,
    6. delle modifiche intervenute nella visibilità dei dati

    E tutto ciò valutato al momento in cui viene posta la domanda: l'istante dopo le condizioni potrebbero essere già mutate!

  3. I campi di ricerca più promettenti nella Scienza dell'informazione riguarderanno:
    1. lo studio e l'individuazione dei bisogni e dei loro mutamenti a partire da quelli del singolo individuo,
    2. lo sviluppo di modelli dati (comprendendo in questo l'human interaction) per applicazioni sempre più rispondenti ai bisogni.
    3. Per le applicazioni è probabile un modello di sviluppo orientato all' "usa e getta" e al Software as a Service (SaaS),
    4. la tecnologia è in grado di trattare enormi masse di dati (sw. engineering) ma ancora insufficienti per garantire visibilità alla "coda lunga" del semantic web, dove spesso si trovano le informazioni più speciali. C'è molto da lavorare per gli informatici puri, sopratutto nel campo dei triplestore e dei reasoner.
    5. La gestione della configurazione e dei cambiamento. Questa disciplina potrebbe introdurre un ulteriore livello di complessità, ma senza tenerne conto rischiamo di progettare una cultura senza memoria.
    6. lo sviluppo di ontologie e regole di produzione condivise e semplicemente computabili,
    7. lo sviluppo di reti di fiducia (social network e altri) in grado di guidare gli algoritmi di ranking delle informazioni,
    8. il diritto che regola l'accesso ai dati ed il diritto d'autore in genere. In particolare sulle opere derivate.
    • Per tutte queste ragioni filosofia, sociologia e diritto affiancheranno sempre più la matematica in quella che è chiamata Web Science e che sostituirà la Information Science. Le scienze umanistiche entreranno a piedi uniti nelle scienze naturali.

    Ma quanto fa 2+2?

    Nell'introduzione ho detto che anche 2+2=4 è una illusione (o meglio una risposta parziale).

    Nell' articolo "Quanto fa due più due?"  ho provato ad immaginarmi la risposta che darebbe come un ipotetico Agente del Seamantic Web. L'articolo mostra le sfide ed i pericoli insiti in un atteggiamento troppo superficiale e spersonalizzato nella gestione dell'IT.

    Note e Ringraziamenti

    La citazione iniziale è ispirata dall' originale di T. S. Elliot ("Where is the wisdom we have lost in knowledge? Where is the knowledge we have lost in information?") e liberamente adattata all'italiano dal prof. Roberto Vacca.

    Ringrazio tutto il team di E-Artspace (http://e-artspace.com/), la community del progetto ITSMO (http://ontology.it/itsmo) e del progetto BOTK (http://ontology.it/tools/botk) per avermi fornito spunti di riflessione ed esempi concreti su cui riflettere.

    Ringrazio particolarmente il dottor Aldo Criscuoli per i suoi preziosi consigli e per aver ripulito le bozze di questo articolo dai miei molti refusi.

     

    {fcomment}