Come si imposta un processo di gestione degli incidenti IT efficace?
Dall'uscita di una stampante bloccata a un'applicazione fuori uso, sono molti gli incidenti, più o meno critici, che si verificano nel vostro sistema IT. Da qui l'importanza di implementare un processo di gestione degli incidenti.
Ma come potete assicurarvi che la vostra procedura di gestione degli incidenti sia efficace? Quali sono le fasi di risoluzione da definire e come determinare i ruoli di ciascuna persona nel processo? È possibile fornire una soluzione soddisfacente per l'utente, in linea con il vostro SLA (Service Level Agreement) e in tempi ragionevoli?
Per aiutarvi a raggiungere una maggiore efficienza e coerenza, Appvizer spiega in questo articolo i principi e le fasi del quadro ITIL e vi ricorda i vantaggi di questo metodo di lavoro.
Che cos'è la gestione degli incidenti IT?
La maggior parte degli incidenti IT viene gestita secondo lo standard Information Technology Infrastructure Library (ITIL).
Ma cos'è esattamente ITIL?
Sviluppato negli anni '80 dall'Office of Government Commerce britannico, ITIL è un insieme di documenti che elencano le migliori pratiche da applicare nella gestione dei servizi IT su ampia base. L'obiettivo è fornire un supporto metodologico ai professionisti, con l'intento di migliorare continuamente.
Il processo ITIL copre una serie di temi (organizzazione del sistema informativo, gestione della configurazione, gestione delle modifiche, ecc:
Per incidente si intende qualsiasi evento che non rientra nel funzionamento standard di un servizio e che causa, o può causare, un'interruzione o una riduzione della qualità di tale servizio.
💡 Questa definizione copre diversi tipi di incidenti:
- incidenti software o applicativi. Esempi:
- errore del programma che rallenta l'utente,
- rallentamento dell'applicazione, ecc.
- incidenti hardware. Esempi
- uscita della stampante bloccata
- disco rigido quasi pieno, ecc.
- Richieste di assistenza. Gli esempi includono
- password dimenticata,
- richiesta di documentazione specifica, ecc.
Gestione degli incidenti VS gestione dei problemi
La gestione degli incidenti viene spesso confusa con la gestione dei problemi. Tuttavia, si tratta di procedure diverse.
Secondo ITIL, la gestione dei problemi viene utilizzata per :
Ridurre al minimo l'impatto negativo sulle attività dell'azienda di incidenti e problemi causati da errori nell'infrastruttura IT e prevenire il ripetersi di incidenti indotti da tali errori.
➡️ In altre parole, la gestione dei problemi è più proattiva, mentre la gestione degli incidenti è più reattiva.
Tuttavia, i due processi lavorano in parallelo, con la gestione dei problemi che opera attraverso l' identificazione degli incidenti ricorrenti.
Perché è importante la gestione degli incidenti?
Un processo standardizzato per la gestione degli incidenti genera numerosi vantaggi per l'azienda 🤩 :
- riduce l'impatto, a volte critico, degli incidenti sull'azienda e sul business in modo più rapido;
- semplifica notevolmente la procedura evitando, ad esempio, di inviare e-mail in continuazione;
- Permette di identificare gli incidenti ricorrenti, consentendo l'implementazione del processo di gestione dei problemi di cui sopra;
- Migliora la qualità della base di conoscenze aziendali grazie alla creazione di database per la gestione degli incidenti;
- Fornisce trasparenza all'interno dell'organizzazione per quanto riguarda la risoluzione degli incidenti;
- aumenta la soddisfazione degli utenti e la produttività di tutti i membri dell'azienda.
☝️ Tenete presente che un processo di gestione degli incidenti va oltre la semplice risoluzione di un problema informatico. Fornisce un solido supporto alle funzioni aziendali, riducendo il numero di rallentamenti o interruzioni delle attività che avrebbero un impatto sul fatturato.
Esempio di procedura di gestione degli incidenti in 5 fasi
#1 Identificazione e registrazione dell'incidente
Per cominciare, l' incidente deve essere identificato, specificando :
- il nome e il numero
- l'identità della persona responsabile
- la data in cui si è verificato l'incidente
- e soprattutto le sue caratteristiche (natura, gravità e impatto sulle operazioni).
Ad esempio: un guasto al server che interessa più reparti sarà considerato un incidente grave, mentre un problema di connessione a una singola postazione di lavoro sarà considerato meno critico.
Spetta al reparto responsabile registrare questi dettagli sul dispositivo di sua scelta (software, foglio di calcolo, modulo, ecc.) e segnalarlo ai team di supporto incaricati di gestirlo secondo la procedura.
#2 Classificazione e analisi dell'incidente
L'incidente viene quindi classificato in base all' ordine di priorità definito a monte e specifico per la vostra organizzazione, ad esempio in base all'impatto sull'azienda e all'urgenza della situazione.
Ad esempio, un guasto alla rete potrebbe essere classificato come incidente di "connettività", con un livello di gravità "alto" se paralizza l'intera azienda.
Allo stesso tempo, viene effettuata un' analisi iniziale per determinare le possibili cause dell'incidente. Per questa valutazione si possono utilizzare strumenti diagnostici o anche esperienze precedenti .
☝️ Se si tratta di una richiesta di assistenza, è necessario seguire la procedura associata.
#3 Indagine e diagnosi dell'incidente
Vengono analizzate tutte le informazioni relative all'incidente, con l'obiettivo di risolverlo e rimetterlo in servizio il più rapidamente possibile. I team incaricati di questo lavoro utilizzano diverse metodologie, dall'analisi dei log ai test in tempo reale.
Ad esempio, se un server si guasta, il team consulta i registri degli eventi alla ricerca di errori critici o utilizza strumenti di monitoraggio per verificare le prestazioni dell'hardware.
Tenete presente che a volte il primo livello di servizio non è in grado di risolvere l'incidente: ciò innesca un' escalation degli incidenti, ossia la loro risoluzione viene trasferita al livello successivo.
#4 Risoluzione degli incidenti e ripristino del servizio
La risoluzione degli incidenti assume varie forme:
- l'incidente viene riparato immediatamente. È stato risolto e le operazioni sono riprese normalmente;
- è stato trovato un workaround. La gestione degli incidenti deve portare a un rapido ripristino dei servizi. Se il sistema non è perfetto, ma rende la situazione "accettabile", il processo viene rispettato.
☝️ Se le cause di un incidente sono sconosciute, ma sembrano avere la stessa origine, si raccomanda di avviare un processo di gestione dei problemi. Ricordate che i flussi di gestione degli incidenti e dei problemi spesso si incrociano.
#5 Chiusura dell'incidente
Per chiudere correttamente un incidente, i team responsabili del processo eseguono una serie di azioni:
- Si preoccupano di registrare tutti i dettagli dell'incidente e il tempo trascorso su di esso. ☝️ Questa documentazione serve a creare uno storico che può essere consultato per migliorare i protocolli in futuro;
- informano l'utente della risoluzione;
- Assicurano che tutti i dettagli della soluzione siano chiari e leggibili.
Questo livello di dettaglio riduce il rischio di conflitto tra le diverse parti interessate.
Gli stakeholder nella gestione degli incidenti
Nella gestione degli incidenti sono coinvolti diversi stakeholder. Sebbene differiscano da un'organizzazione all'altra, è possibile identificare alcuni ruoli di base:
- Il richiedente/utente: segnala l'incidente, specificando chiaramente di cosa si tratta. Il team tecnico può rivolgersi a loro anche alla fine del processo per rispondere alle richieste di informazioni.
- I diversi livelli di supporto: a seconda del loro livello, i team di supporto forniscono le soluzioni necessarie per risolvere l'incidente e talvolta riassegnano l'incidente non risolto al livello superiore.
- Il responsabile degli incidenti: si assicura che la gestione degli incidenti sia eseguita correttamente, pianifica la procedura e può raccomandare aree di miglioramento.
- Il process owner: all'interno dell'azienda, questa persona si assume la responsabilità del processo di gestione degli incidenti in generale. Può anche essere responsabile della definizione dei KPI (Key Performance Indicators).
10 best practice per la gestione degli incidenti
Per essere meglio preparati a gestire gli incidenti informatici e ridurre al minimo il loro impatto sulle operazioni della vostra organizzazione, vi consigliamo di seguire queste 10 best practice:
- ✅ Formare il personale. Assicuratevi che il team di supporto sia ben addestrato sulle procedure e sugli strumenti. L'obiettivo è garantire una diagnosi rapida e accurata.
- ✅ S tabilire le priorità in modo efficace. Stabilite criteri chiari per dare priorità in modo intelligente agli incidenti in base alla loro gravità o all'impatto sull'azienda.
- Stabilire una documentazione rigorosa. Documentate ogni fase della risoluzione, dalla diagnosi all'azione correttiva, per un follow-up efficace e per l'apprendimento futuro.
- Comunicare in modo trasparente. Comunicare in modo chiaro e regolare con le parti interessate per tenerle informate sullo stato dell'incidente e sulle azioni intraprese.
- Implementare un processo di convalida. Prima di chiudere un incidente, convalidare la risoluzione con gli utenti. Questo conferma che i loro problemi sono stati completamente risolti.
- Eseguire una revisione post incidente. Effettuare una revisione post incidente. Servirà a identificare le cause principali e le potenziali aree di miglioramento.
- Aggiornare la base di conoscenze. Aggiornare regolarmente la base di conoscenze con informazioni sulla risoluzione degli incidenti, sempre per aiutare a risolvere incidenti simili in futuro.
- Automatizzare le attività ripetitive. Utilizzate l'automazione per gestire le attività di routine, come il triage degli incidenti. Il tempo risparmiato permetterà al team di concentrarsi su problemi più complessi.
- Pensate al "miglioramento continuo". Effettuate verifiche regolari della vostra procedura di gestione degli incidenti, con l'obiettivo di individuare le opportunità di miglioramento.
- Utilizzare uno strumento di gestione degli incidenti. Questo è senza dubbio il consiglio più importante! Infatti, investendo in un robusto sistema di gestione degli incidenti (ITSM in particolare), è possibile tracciare e documentare tutti gli incidenti in modo centralizzato.
Gli strumenti giusti per la gestione degli incidenti
Avete un quadro più chiaro del problema della gestione degli incidenti, ma forse vi state chiedendo come mettere in pratica tutti questi consigli? Immaginate già di applicare la vostra procedura di gestione degli incidenti utilizzando un foglio Excel o uno strumento tradizionale di gestione dei progetti?
Fortunatamente, sono stati sviluppati software specifici per supportare i vostri team in ogni fase della procedura di gestione degli incidenti.
Per aiutarvi, date un'occhiata alla nostra selezione ✔️:
- Jira. Sviluppato da Atlassian, lo strumento di ticketing Jira standardizza l'elaborazione dei ticket aperti in seguito alla segnalazione di un incidente.
Perché Jira?- creare ticket con un livello preciso di informazioni (descrizioni, livello di gravità, ecc.) e seguire tutti i processi necessari per la loro gestione;
- classificare e dare priorità ai bug in modo semplice e assegnarli al dipendente o al reparto giusto;
- integrare i ticket in un flusso di lavoro già pronto o personalizzabile in base alle vostre esigenze e ai vostri processi.
- NinjaOne. NinjaOne è una soluzione completa per la gestione delle risorse IT per PMI, ETI e grandi aziende.
Perché NinjaOne?- Supervisionare in modo centralizzato e proattivo l'intera infrastruttura IT per rilevare gli incidenti il prima possibile;
- Applicare automaticamente le patch necessarie, in modo affidabile, a tutti gli endpoint;
- archiviare sulla piattaforma tutta la documentazione standardizzata e strutturata relativa ai vostri processi.
- Octopus. Octopus è un software ITSM (Information Technology Service Management), ossia di gestione dei servizi IT.
Perché Octopus?- beneficiate di uno strumento sviluppato in conformità con le best practice ITIL: i vostri team potranno applicarle in modo naturale senza doverle padroneggiare perfettamente in anticipo;
- gestire facilmente le richieste dei vostri utenti, sia per gli incidenti che per le richieste di servizio;
- migliorare l'azione preventiva grazie a un database che gestisce tutti gli aspetti della configurazione dei vostri sistemi informativi.
- Splunk Enterprise Security. Splunk Enterprise Security è un SIEM (Security information and event management) progettato per aiutarvi a rafforzare la sicurezza dei sistemi informatici e a gestire gli incidenti.
Perché Splunk Enterprise Security?- beneficiare di una soluzione incentrata sull'analisi e quindi sulla semplificazione delle attività legate alla cybersecurity;
- ottenere informazioni in tempo reale attraverso dashboard e visualizzazioni personalizzate; ;
- individuare più rapidamente gli incidenti e intraprendere azioni preventive.
Quali sono i punti chiave della gestione degli incidenti IT?
La gestione degli incidenti, standardizzata da ITIL, è una procedura che dovrebbe essere incorporata nel sistema informativo il prima possibile, poiché promette di fornire una risposta chiara e rapida in caso di incidente.
Inoltre, consente di ridurre gradualmente il numero di incidenti, alimentando i processi di gestione dei problemi e, di conseguenza, le azioni preventive.
E la buona notizia è che tutti vincono quando si mette in pratica questo metodo di lavoro:
- I team tecnici lavorano in modo più efficiente e trasparente;
- gli utenti sono meno colpiti dai bug e più soddisfatti del vostro prodotto;
- l'azienda subisce meno perdite in caso di incidenti critici.
Infine, vale la pena ricordare che una buona gestione degli incidenti va di pari passo con l' uso di strumenti pertinenti, che supportano il processo e fanno risparmiare tempo prezioso ai team.