search Il media che reinventa l'impresa

Ottimizzate il valore della vostra IS con l'ETL

Ottimizzate il valore della vostra IS con l'ETL

Da Laurent Hercé

Il 29 ottobre 2024

ETL- tre lettere che racchiudono un concetto piuttosto semplice: l' integrazione di dati provenienti da più fonti.


Nel tentativo di migliorare il vostro sistema informativo, non potete non aver notato l' Extract-Transform-Load. Seguono alcune domande. Come funziona? Posso farlo con i mezzi a mia disposizione? Quale strumento ETL mi darà i risultati più soddisfacenti in questo processo di integrazione?

Ecco perché avrete sentito la necessità di capire meglio il concetto di ETL.

Che cos'è l'ETL?

Definizione

Questo acronimo è una combinazione delle parole inglesi Extract - Transform - Load. Caratterizza la sequenza di 3 operazioni principali coinvolte nell'integrazione dei dati in un sistema di gestione di database (DBMS).

Una soluzione ETL è quindi un insieme di strumenti e macchine che forniscono l'interfaccia tra le fonti e la destinazione.

L'ETL funziona in 3 fasi

1. E di Estrazione

Questa fase consiste nell' estrarre i dati dai loro sistemi di memorizzazione: che provengano da un ERP, da un DBMS o da file piatti.

2. T di Trasformazione

Si tratta di trasformare i dati: vengono

  • verificati
  • riformattati
  • ripuliti dai duplicati,
  • anonimizzati
  • arricchiti.

3. Fase di caricamento

Infine, i dati vengono caricati nel data warehouse, dove vengono messi a disposizione di vari strumenti come il data mining o l'OLAP (OnLine Analytical Processing).

A seconda della storia e dell'architettura del vostro sistema informativo e della diversità delle vostre attività, questo processo può essere relativamente semplice o un vero e proprio gioco da acrobati. Spesso è proprio in questo caso che un middleware ETL ben scelto può apportare un significativo valore aggiunto.

Esempio di ETL

L'esempio più ovvio è l'implementazione di un data warehouse. In altre parole, un archivio di dati provenienti dall'intera azienda in una forma che può essere fornita a diversi consumatori, analisti, revisori o altri sistemi.

Tale magazzino può quindi fornire a ciascuna linea di business un datamart su misura per le sue specifiche esigenze di analisi e reporting. Si baserà in gran parte sui propri dati, ma non esclusivamente. Il maggior valore aggiunto deriverà dall' arricchimento di questi dati da parte degli altri sistemi aziendali.

Più in generale, l'ETL può essere utile per qualsiasi esigenza di scambio di dati, sia una tantum che ricorrente. Ad esempio

  • migrazione di sistemi operativi
  • scambi con partner o enti normativi,
  • o un sistema di archiviazione, backup o ridondanza.

Infine, le soluzioni ETL vengono continuamente migliorate per incorporare funzioni talvolta considerate secondarie. Tra queste, il monitoraggio degli scambi di informazioni, la gestione della qualità e il tracciamento delle informazioni, e persino la fornitura di informazioni tramite ESB.

I vantaggi dell'ETL per la vostra azienda

  • aggiornare l'architettura IT a un livello superiore di integrazione, controllo e scambio di dati;
  • soddisfare meglio le diverse esigenze dei vostri dipendenti:
    • esigenze interne: dare vita all'azienda consentendo la comunicazione di informazioni coerenti tra i reparti in modo che possano rispondere nel modo più efficace possibile all'attività aziendale,
    • esigenze esterne: ottimizzare gli scambi con i partner (fornitori, clienti, gruppi competitivi), soddisfare le esigenze amministrative (dichiarazioni amministrative, audit, RGPD),
    • esigenze emergenti: far parlare le informazioni nascoste, individuare i segnali deboli,
  • ripulire e formattare la quantità di informazioni generate dai processi, dai software e dalle macchine utilizzate dai dipendenti;
  • l'architettura ottimizzata, generalmente on-premise, per poi caricare le informazioni nel database una volta adattate ai requisiti specificati a monte al fine di :
    • produrre informazioni arricchite e di alta qualità che possano essere utilizzate rapidamente per la reportistica operativa o l'analisi decisionale,
    • massimizzare l'uso delle infrastrutture di archiviazione,
    • soddisfare i requisiti di sicurezza, come l'anonimizzazione dei dati.

ETL o ELT?

Naturalmente non vi sarà sfuggito che i Big Data e il Cloud hanno rivoluzionato il modo in cui affrontiamo le informazioni, la loro utilità e la loro monetizzazione. Anche in questo caso, gli ETL stanno cercando di affilare le armi per interfacciarsi con questi sistemi iper-scalabili.

Ma il compito non è facile e se avete sperimentato una crescita esponenziale dei vostri dati, i tentativi di elaborazione ETL potrebbero rivelare i limiti di questo principio.

Questa situazione ha dato nuovo impulso all' ELT (Extract Load Transform), un processo cugino dell'integrazione dei dati:

  1. Le informazioni vengono memorizzate nella loro forma grezza,
  2. poi trasformate
  3. trasformate e infine rese disponibili.

In questo modo, possiamo sfruttare la potenza della piattaforma che ospita i dati, piuttosto che i server intermedi.

L'ELT, abbinato a un data base altamente scalabile, ha quindi il pregio di mantenere calde le informazioni grezze, che rappresentano volumi considerevoli. Vengono scambiate in tempo quasi reale, non toccate da alcuna specifica di trasformazione, pronte per essere esplorate dai data scientist. Questi ultimi ne ricaveranno nuove conoscenze, dando origine a nuove esigenze e, in ultima analisi, a nuovi profitti.

Oggi i mondi dell'ETL e dell'ELT possono solo convergere, grazie all'esistenza di strumenti in grado di ibridarsi o all'avvento di concetti come la virtualizzazione dei dati.

Quale strumento ETL scegliere? Elenco degli strumenti ETL

La scelta in questo campo è particolarmente ampia. Per aiutarvi a orientarvi, ecco una rapida classificazione:

Tipo di strumento ETLEsempi di ETL
I colossi
  • Informatica Powercenter - ETL per definizione, ma non solo.
  • IBM Infosphere Datastage - gigante dell'informazione
  • SAP Data Services - Saldamente radicato nell'ERP e nella business intelligence
  • Microsoft SSIS - Avete già un piede nel cloud di Azure
  • Oracle Data Integrator - ETL per eccellenza
I nuovi arrivati
  • Qlik Replicate - Integrazione per la business intelligence
  • Denodo - Virtualizzazione dei dati
ETL open source
  • Talend Open Studio per l'integrazione dei dati - sia ETL che ELT
  • TIBCO Jaspersoft - ETL e reporting
  • Pentaho Integrazione dei dati
Basati su cloud e no-code
  • Xplenty - Orientamento al cloud e specializzazione su Salesforce
  • Skyvia - No-code e BigData
  • Hevo - No-code e BigData

Conclusione

Dal software open-source "gratuito" alle soluzioni più costose, tutti affrontano almeno questi problemi di base:

  • Integrare le informazioni provenienti da sistemi diversi
  • ripulire le informazioni per renderle coerenti
  • Mettere queste informazioni a disposizione degli utenti

Ma tutte evidenziano anche le proprie caratteristiche specifiche, in modo da adattarsi il più possibile ai vostri usi. Dalle soluzioni legacy più complete agli specialisti "no-code", cloud o in tempo reale, il mondo dell' ETL è pieno di pepite. Ci stiamo avvicinando all' ELT e la concentrazione di questo mercato in rapida evoluzione è ben lungi dall'essere conclusa.

Articolo tradotto dal francese