The problem needs no introduction to the mainstream I.T. community as problems associated with information federation cost lives, productivity and billions of dollars a year. They may call it the "data problem", data integration, "master data", application integration or a few other names - but the problem remains the same, understanding and using data from independently conceived resources together. Often this involves using data for purposes outside of its original design intent.
...Federated data is inherently distributed, uncoordinated, messy and conflicting - yet there is value in leveraging these disparate data resources in a more unified way. It is not always clear how "neat" solutions work in this unstructured world, yet the very "scruffy" solutions seem to be insufficient. Discussions of this problem that involve, for example, the OWL, Linked Data and Common Logic communities result in theoretical and sometimes religious wars that can and have frightened potential consumers of the technology away. Cory Casanave
Questo articolo propone una risposta, nel dominio del Service Management, al problema così lucidamente proposto da Cory.
IT Service Management Ontology (ITSMO) è un progetto open-source gestito da E-Artspace per lo sviluppo di una ontologia per descrivere i servizi IT.
Google Refine è un progetto open source di Google per la pulizia di dati tabellari disordinati.
Approfondiamo il perchè di una integrazione naturale tra i due progetti.
Uno degli obiettivi dichiarati di ITSMO è di essere tollerante rispetto a dati incompleti, duplicati e mancanti. Nel mondo reale infatti i dati non hanno sempre la qualità desiderata, attraverso ITSMO e le tecnologie semantiche è però possibile prendere da tutti i dati quanto di buono essi possono portare, identificando eventuali inconsistenze e utilizzando metriche basate sulla fiducia (ranking) per determinarne il livello di qualità.
Ad esempio: un servizio IT è dichiarato "non critico" in una tabella excel, e contemporaneamente dichiarato "critico" nel database ufficiale (CMDB). La tabella excel riporta però anche un insieme di dati non presenti nel database (ad esempio il responsabile del servizio).
Evidentemente uno delle due criticità è sbagliata. Una applicazione che si basa su ITSMO è in grado di rilevare i dati inconsistenti , ma è potenzialmente anche capace di determinare un rank dell'informazione effettuando deduzioni sulla base degli altri dati contenuti nella sua base della conoscenza.
Per esempio se il CMDB è la fonte dati ufficiale per i nostri servizi , il valore "critico" è presentato con un rank maggiore, nel contempo però l'informazione relativa al responsabile del servizio (presente solo nella tabella excel) non viene persa.
La rete di deduzioni che governa la fiducia (i.e. il rank) è dinamica. Sempre nel caso precedente, se in un secondo tempo, l'autore della tabelle excel è riconosciuto da noi come persona fidata, il rank delle informazioni contenuti nei suoi documenti potrebbe crescere anche sino a superare quello del repository ufficiale (immaginate che l'autore della tabella sia l' AD dell'azienda e che la data della tabella sia piú recente dell'ultimo aggiornamento sul CMDB).
ITSMO e le tecnologie semantiche ci forniscono quindi un potente strumento per identificare e quantificare la qualità delle informazioni.
Ma se abbiamo identificato delle informazioni errate, l'obiettivo di tutti è quello di correggerle (se possiamo)!
Questa porzione del problema è indirizzato da Google Refine.
Il progetto nasce con il nome di Freebase Gridworks da Metaweb Technologies, Inc. ed è origariamente scritto da David Huynh. Metaweb Technologies, Inc. è stata acquisita da Google a Luglio 2010 per una cifra imprecisata (non bassa visto che nella precedente tornata di investimenti aveva ricevuto un finanziamento di $42.5M da parte di Goldman Sachs and Benchmark Capital).
L'integrazione con ITSMO è abbastanza naturale, per capire come Google Refine opera guardate questo video:
{youtube}B70J_H_zAWM|600|450|1{/youtube}