22 settembre 2021

Data Masking: tutto sull’offuscamento dati


Le imprese che condividono dati con terze parti per diversi motivi, ad esempio per lo sviluppo di applicativi o test, devono obbligatoriamente dotarsi di un sistema di data masking, una tecnica che consiste nel mascheramento dei dati sensibili con altre tipologie di dato per fare data protection e preservare le informazioni riservate, consentendo allo stesso tempo alle parti terze l’accesso ai dati necessari condivisi per svolgere determinate operazioni.

Data Masking: che cos’è e a cosa serve?

Il mascheramento dei dati è noto con diversi nomi e metodologie; che si parli di offuscamento dei dati, anonimizzazione dei dati o pseudonimizzazione, tutto si fonda su un processo di sostituzione dei dati riservati attraverso altri dati fittizi. I metodi più utilizzati sono il rimescolamento dei caratteri, la sostituzione delle parole o ancora la crittografia.

Indipendentemente dal metodo scelto, ad essere modificato deve essere il valore del dato in modo da renderne effettivamente impossibile il rilevamento.

Non solo: il data masking permette di mascherare i dati originali creando un sostituto operativo funzionale alla condivisione con terze parti.

Facciamo l’esempio di un’impresa che deve effettuare dei test set con una società ICT esterna per lo sviluppo di una nuova applicazione. L’azienda dovrà per forza condividere i propri dati con il fornitore: ma come farlo senza rischiare di divulgare informazioni sensibili? Proprio grazie al mascheramento dei dati.

Mediante questa operazione sarà fornito l’accesso solo a dati non riservati o particolari, mentre delle informazioni fittizie sostituiranno i dati sensibili, evitando così che questi ultimi siano divulgati erroneamente o, nella peggiore delle ipotesi, trafugati e utilizzati per altri scopi.

Inquadrato in questo modo, l’offuscamento dei dati risponde alle esigenze di riservatezza e di compliance imposte dal GDPR: l’applicazione a livello aziendale preserva così dal rischio di data breach ed evita di incorrere in sanzioni o in una fuga di dati deleteria per la sicurezza e l’immagine aziendale.

Data Masking: come funziona?

Esistono diverse tecniche e tipologie di data masking, ma il primo step dell’iter di mascheramento delle informazioni consiste nell’identificazione di tutti i dati sensibili raccolti e conservati dall’impresa.

In seguito si procede con la definizione delle opportune policy di mascheramento da applicare; esse si realizzano mediante appositi algoritmi che offuscano solo i dati sensibili e li sostituiscono con altri.

Ovviamente, lo stesso tipo di dato sensibile dev’essere occultato dalla medesima tecnica di mascheramento, che viene dunque utilizzata ripetutamente in modo da ottenere lo stesso output e mantenere un’integrità sostanziale che renda utilizzabili i dati nei diversi contesti.

Questo significa anche che i dati sostitutivi devono essere strutturalmente identici ai dati originari e coerenti fra loro; devono dunque rispettare i vincoli, le gerarchie e le relazioni tra i dati stessi. In altre parole, il loro compito è quello di mascherare il valore del dato, preservando invece il contesto e il formato. Se così non fosse, i dati non sarebbero infatti significativi e, dunque, fruibili per i diversi scopi.

Tutti i tipi di Data Masking

Il processo di data masking si distingue in due diversi contesti di utilizzo:

  • Data Masking statico (SDM): in cui i dati vengono mascherati in modo persistente in una copia del database originale di modo che un’impresa possa condividerli con fornitori di terze parti;
  • Data Masking dinamico (DDM): in questo caso non è necessaria una seconda sorgente di dati per memorizzare i dati mascherati. I dati sensibili originali rimangono infatti nel repository e risultano accessibili in modo diverso a seconda del profilo di accesso dell’operatore. Così facendo, gli utenti autorizzati dal sistema avranno accesso ai dati originali, mentre gli utenti non autorizzati vedranno solo contenuti mascherati.

Tecniche di Data Masking

Oltre ai diversi tipi di data masking, esistono numerose tecniche di mascheramento dei dati.

Pseudonimizzazione
La pseudonimizzazione è utile per nascondere l’identità dei soggetti a terze parti. I dati identificativi sono sostituiti da pseudonimi, in modo tale che non possano essere riconducibili a un soggetto. Ci sono diverse modalità di pseudonimizzazione: le più utilizzate consistono nell’attribuire ad ogni soggetto un alias o un numero di classificazione casuale.

Anonimizzazione
L’anonimizzazione è la procedura che permette di fornire informazioni anonime e dunque non riconducibili a una persona fisica. Permette così di eliminare la correlazione tra i dati personali e un determinato soggetto fisico. Se i dati personali sono stati adeguatamente anonimizzati, risulterà impossibile risalire agli originali.

Scrambling
Questo metodo prevede la riorganizzazione dei caratteri secondo uno schema casuale. Anche in questo caso si tratta di un processo irreversibile che non permette di leggere i dati originali a partire da quelli mascherati.

Sostituzione
La sostituzione è un processo che permette di sostituire i dati sensibili con altri dati simili ma non correlati. Questo approccio permette di preservare l’aspetto autentico del dato, sostituendo le sue parti sensibili con dati ugualmente significativi.

Shuffling
Lo shuffling funziona in modo simile alla sostituzione, con la differenza che in questa tecnica si mescolano casualmente i dati tra le colonne interne di un database. Questa soluzione, se impiegata con una logica di designazione dei gruppi e delle partizioni, permette di mantenere intatte le relazioni logiche tra le colonne, rendendola la tecnica ideale per la generazione di dataset per operazioni di test.

Varianza di numero e data
Utilizzata soprattutto per i dati finanziari, questa tecnica consiste nel modificare algoritmicamente i dati con una percentuale casuale del loro valore per creare un nuovo dataset che non modifichi i valori di distribuzione, mantenendo dunque l’accuratezza del dato. Lo svantaggio principale è che si applica solo a valori numerici.

Crittografia
La crittografia è la tecnica più complessa. Consiste nel rendere illeggibili i dati grazie ad algoritmi di cifratura, influendo quindi sulla formattazione e sull’aspetto dei dati. Gli utenti possono accedere ai dati solo se dispongono della relativa chiave di decrittografia.

Annullamento o cancellazione
Molte aziende decidono di adottare questo metodo molto semplicistico che ha il solo scopo di impedire la visibilità dei dati, poiché questa soluzione riduce l’accuratezza e l’integrità dei dati. La tecnica consiste infatti nella semplice sostituzione di alcuni campi con un valore nullo.

Masking out
Questo metodo è simile al precedente, ma consiste nel mascherare solo una parte dei dati originali anziché attribuire a tutti valore zero.

I vantaggi e gli svantaggi del mascheramento dei dati

Indipendentemente dalla tipologia o dalla tecnica di offuscamento dei dati, il data masking rappresenta una soluzione fondamentale per prevenire la violazione o la perdita dei dati, nonché il dirottamento di account o servizi. Il suo impiego limita inoltre le minacce derivanti da interfacce non sicure o dall’uso dannoso dei dati da parte di addetti ai lavori.

Non solo: il mascheramento riduce sensibilmente i rischi relativi ai dati associati all’adozione di un cloud. Ma i vantaggi non si limitano a questo.

Il vero plus del data masking è rappresentato dal fatto che i dati mascherati alterano solo il valore dei dataset, mantenendo invece intatti la loro integrità e il formato strutturale: come abbiamo visto, questa caratteristica permette la condivisione di dati ugualmente significativi con persone autorizzate, ad esempio sviluppatori e tester, senza il rischio di esporre informazioni sensibili a queste parti.

Il data masking è inoltre molto conveniente e (fatto salvo per la crittografia) risulta molto semplice da adottare.

Tuttavia, alcune tecniche di offuscamento comportano delle limitazioni.

Se ad esempio la sostituzione è ottima per conservare l’autenticità del dato, dall’altra parte non è applicabile con enormi quantità di dati, a causa dell’elevata difficoltà nel trovare le informazioni rilevanti da sostituire.

Il rimescolamento (shuffling) ha il problema opposto, ovvero riesce a lavorare dati dimensionalmente maggiore ma risulta inefficace quando si gestiscono dati di dimensioni minime.

La crittografia è un metodo molto efficace, ma influisce sul formato dei dati, che come abbiamo visto è una caratteristica cruciale per far sì che il dato risulti utilizzabile da terze parti.

Differenza tra Data Masking e Dati Sintetici

Oltre al data masking, oggi si sente sempre spesso parlare anche di dati sintetici. Queste due metodologie hanno dei punti in comune, ma rappresentano in realtà soluzioni molto differenti fra loro.

Innanzitutto, chiariamo che sono sono i dati sintetici. Si tratta di dati finti, creati da un sistema di intelligenza artificiale a partire da un dataset reale. Attraverso il machine learning, l’A.I. individua le correlazioni e le metriche statistiche dei dati originali e genera un nuovo dataset che mantiene le stesse proprietà statistiche dei dati di partenza. Questa modalità permette quindi di creare dati fittizi ugualmente significativi, simili agli originali ma formalmente diversi.

In cosa si differenziano quindi rispetto al data masking? Semplice: mentre il mascheramento dei dati consiste nel rimpiazzare i dati sensibili di partenza utilizzando altri dati funzionali, i dati sintetici sono dati artificiali creati ex novo che non hanno più nessun legame con il dato di partenza, se non per le proprietà statistiche. I dati sintetici sono quindi una soluzione irreversibile che non permette di risalire al dato reale a partire dal nuovo dato generato.

Non dobbiamo poi dimenticare che il data masking è una soluzione assai più semplice e rapida da implementare all’interno delle imprese.
Per tutti questi motivi il mascheramento dei dati è senza dubbio il miglior modo per far fronte alle crescenti minacce informatiche e adeguarsi alle regolamentazione sulla sicurezza dei dati come il GDPR. Il tutto consentendo allo stesso tempo di testare i propri sistemi con dati il più vicino possibile a quelli reali, garantendo il non utilizzo di dati privati e informazioni sensibili.

Se sei interessato a soluzioni o procedure di data masking, clicca qui per saperne di più.