Comparing Physical Security Controls#
mindmap
root((Physical
Security Controls))
Access Badges
smart card
proximity card
MAC bypass risk
Personnel
guards
two-person integrity
Video Surveillance
IP cameras
motion recognition
retention policies
Sensors
noise motion infrared
microwave
ultrasonic
Fencing Lighting Alarms
deterrent preventive
CCTV + lighting combo
Barricades
bollards
vehicle barriers
Access Control Vestibules
mantrap
piggybacking tailgating
La sicurezza fisica è il primo layer di difesa: senza di essa, qualsiasi controllo logico (firewall, crittografia, MFA) può essere aggirato fisicamente rubando un laptop, un server o un disco. Il principio è lo stesso della defense in depth: nessun singolo controllo basta, si stratificano.
Access Badges#
Un access badge (badge di accesso) è un dispositivo fisico che autentica l'identità di una persona e le consente di entrare in aree riservate. Esistono due tecnologie principali:
| Tipo | Funzionamento | Dettaglio |
|---|---|---|
| Smart card | Chip integrato, contatto fisico | Usata come secondo fattore in combinazione con PIN: "qualcosa che hai" + "qualcosa che sai" (vedi Authentication Factors) |
| Proximity card (RFID) | Chip RFID, senza contatto | Basta avvicinarla al reader. Vulnerabile a clonazione: vedi #Card Skimming and Card Cloning |
Un badge fisico da solo non garantisce che chi lo porta sia il legittimo proprietario. Un badge rubato o clonato consente accesso non autorizzato. Per questo si combinano badge + PIN (due fattori fisico+conoscenza).
MAC bypass (MAB - MAC Authentication Bypass): in alcuni sistemi di controllo accessi fisici collegati alla rete, un device non autenticato può essere autorizzato basandosi solo sul suo MAC address. E' una modalità di fallback rischiosa: i MAC address si falsificano facilmente (MAC spoofing, vedi Wireless Attacks). Da usare solo quando l'alternativa è bloccare device legacy che non supportano 802.1X.
Increasing Security with Personnel#
Il personale fisicamente presente è uno dei controlli di sicurezza più efficaci: una guardia può riconoscere situazioni anomale, rispondere a incidenti e deterrere attaccanti con la sola presenza.
Guards (guardie): pattuglie fisiche che monitorano aree, controllano i badge all'ingresso, verificano le identità e rispondono agli allarmi. Possono essere guardie interne o fornite da un vendor esterno di sicurezza.
Two-person integrity (o two-person control): richiede che due persone autorizzate siano presenti per eseguire operazioni critiche. Elimina il rischio di un singolo punto di compromissione umano (insider threat) su operazioni ad alto rischio come l'accesso a vault fisici, l'accesso a sistemi nucleari o la manipolazione di backup crittografati.
Dev parallel: il two-person integrity è l'equivalente fisico del peer review obbligatorio prima del merge su main: nessuno può fare push direttamente al branch di produzione da solo. Stessa logica, layer diverso.
Monitoring Areas with Video Surveillance#
Le telecamere di sorveglianza (CCTV - Closed-Circuit Television o IP cameras) registrano le aree fisiche per deterrenza e investigazione post-incidente.
| Caratteristica | Dettaglio |
|---|---|
| IP cameras | Si collegano direttamente alla rete; più flessibili delle CCTV analogiche, richiedono protezione della rete (segmentazione VLAN, autenticazione) |
| Motion recognition | Software che identifica il movimento e triggera alert o registrazione ad alta risoluzione solo quando necessario |
| Retention policies | Le registrazioni vanno conservate per un periodo definito (es. 30-90 giorni) per supportare le investigazioni; la retention dipende da policy e normative |
Le telecamere coprono sia il ruolo deterrente (chi sa di essere osservato si comporta diversamente) sia il ruolo detective (forniscono evidenze dopo un incidente, vedi Detective Controls).
Sensors#
I sensori rilevano condizioni ambientali o movimenti e triggertano allarmi o sistemi di risposta automatica:
| Tipo | Espansione | Cosa rileva |
|---|---|---|
| Noise sensor | - | Suoni anomali (vetri rotti, spari, movimenti) |
| Motion sensor | - | Movimento in aree non presidiate |
| Infrared sensor | - | Variazioni di calore (corpo umano in area buia) |
| Microwave sensor | - | Movimento tramite onde radio; attraversa pareti, copre aree ampie |
| Ultrasonic sensor | - | Movimento tramite onde sonore ad alta frequenza; range corto, meno interferenze |
I sensori si combinano con telecamere e guardie: il sensore triggera un alert, la telecamera inquadra l'area, la guardia verifica. E' un esempio di controllo automatico + umano in sequenza.
Fencing, Lighting, and Alarms#
Fencing (recinzione): barriera fisica perimetrale. Tipicamente alta abbastanza da rendere difficile la scalata (minimum 2,4 m, spesso con filo spinato o anti-arrampicata in cima). E' un controllo preventive e deterrent combinato (vedi Control Types).
Lighting (illuminazione): un'area ben illuminata riduce i nascondigli, aumenta la visibilità delle telecamere e deterisce gli attaccanti. L'illuminazione notturna combinata con CCTV è lo standard per perimetri di data center e edifici corporate.
Alarms (allarmi): rilevano intrusioni (sensori perimetrali, sensori sulle porte) e notificano personale di sicurezza o forze dell'ordine. Gli allarmi si classificano come detective controls: non prevengono l'intrusione, ma la rilevano e triggertano una risposta.
Per l'esame: fencing + lighting = deterrent + preventive. Alarms = detective. Guards = corrective (possono rispondere e contenere). Telecamere = detective. Combinarli = defense in depth fisica.
Securing Access with Barricades#
Le barricades (barriere fisiche) proteggono strutture da attacchi con veicoli e accessi non autorizzati. Il tipo più comune sono i bollards: pali di acciaio o cemento interrati che bloccano fisicamente i veicoli ma consentono il passaggio pedonale. Li trovi davanti ai data center, ai parlamenti, agli aeroporti. Funzione: impedire che un veicolo (accidentale o intenzionale) possa sfondare l'ingresso di una struttura.
Access Control Vestibules#
Un access control vestibule (o mantrap) è un'area di transizione tra due zone a diverso livello di sicurezza: una persona entra in una piccola anticamera, la porta esterna si chiude, e solo dopo aver verificato l'identità si apre la porta interna. Impedisce il tailgating e il piggybacking:
| Attacco | Descrizione |
|---|---|
| Tailgating | Una persona non autorizzata segue immediatamente una autorizzata attraverso una porta sicura, sfruttando il momento in cui è aperta |
| Piggybacking | Come il tailgating, ma la persona autorizzata è consapevole e "regge la porta" alla persona non autorizzata (spesso per cortesia, vedi Social Engineering: il principio della familiarity/trust sfruttato fisicamente) |
Da ricordare: il mantrap/vestibule previene il tailgating impedendo l'accesso fisico di più persone con una sola autenticazione. Un bollard è una barriera fisica contro i veicoli. L'illuminazione è sia deterrent che supporto alle telecamere. Il two-person integrity richiede due persone autorizzate per operazioni critiche.
Asset Management#
mindmap
root((Asset
Management))
Hardware Asset Management
inventory
lifecycle tracking
procurement to disposal
Software Asset Management
license compliance
EOL tracking
Data Asset Management
classification
public confidential
DLP
Platform Diversity
reduces single vendor risk
monoculture risk
L'asset management (gestione degli asset) è il processo di identificare, tracciare e gestire gli asset di un'organizzazione per tutta la loro vita utile (lifecycle), dalla fase di acquisizione fino alla dismissione. Senza asset management, un'organizzazione non sa esattamente cosa possiede, dove si trova, e quindi non può proteggerlo.
Hardware Asset Management#
Il hardware asset management tiene traccia di tutto l'hardware fisico: server, workstation, laptop, stampanti, switch, router, access point, telefoni. Un inventario hardware aggiornato è il presupposto di qualsiasi altra attività di sicurezza: non puoi patchare quello che non sai di avere, e non puoi proteggere un sistema che non sai dove si trova.
L'inventario traccia informazioni come:
- Identificatore univoco dell'asset (numero seriale, asset tag)
- Posizione fisica
- Utente assegnato
- Data di acquisizione e data di dismissione prevista
Il lifecycle tracking copre l'intero ciclo: acquisizione, configurazione, deployment, manutenzione, e infine dismissione sicura (disposal), che include la sanitizzazione dei dati prima che l'hardware esca dall'organizzazione (vedi Decommissioning and Disposal).
Software Asset Management#
Il software asset management tiene traccia del software installato, delle licenze acquistate e delle date di End of Life (EOL). Gli obiettivi principali sono:
- License compliance: verificare che ogni installazione del software sia coperta da licenza valida (vedi Software Compliance/Licensing).
- EOL tracking: identificare software che il vendor non supporta più e che quindi non riceve patch di sicurezza (vedi Legacy Systems).
- Unauthorized software detection: identificare software installato senza approvazione (shadow IT) che potrebbe introdurre vulnerabilità.
Dev parallel: nel contesto dev, il software asset management ha il suo equivalente in un file package.json o composer.json come registro di dipendenze: sai esattamente quali librerie usi, in quale versione, e strumenti come Dependabot o Renovate ti avvisano quando una versione è EOL o ha CVE aperte.
Data Asset Management#
Il data asset management identifica, classifica e protegge i dati dell'organizzazione. La prima domanda è: dove sono i dati? Poi: quanto sono sensibili? La classificazione dei dati (vedi Data Classification) determina i controlli applicati.
Categorie tipiche di classificazione:
- Public: dati che possono essere condivisi liberamente (comunicati stampa, contenuto del sito web pubblico)
- Internal: dati per uso interno, non pubblici ma non critici
- Confidential: dati sensibili (informazioni clienti, contratti)
- Secret/Top Secret (in contesti governativi/militari): massima protezione
Il DLP (Data Loss Prevention) è il controllo tecnico che monitora e blocca la trasmissione non autorizzata di dati classificati (vedi DLP).
Platform Diversity#
La platform diversity (diversità di piattaforma) è la strategia di usare sistemi operativi, hardware e vendor diversi invece di una singola piattaforma omogenea. L'obiettivo è ridurre il rischio di monoculture: se tutta l'organizzazione usa lo stesso OS, una singola vulnerabilità può compromettere l'intera infrastruttura.
Esempio: un'organizzazione che usa sia Windows che Linux sui server riduce la superficie d'attacco di una singola vulnerabilità critica su Windows: i server Linux non sarebbero impattati. Stessa logica per hardware (non solo un vendor) e browser (non solo Chrome).
Il lato negativo: la complessità operativa aumenta (competenze diverse, strumenti diversi, patch management più complesso).
Da ricordare: l'asset management copre hardware (lifecycle), software (licenze, EOL), e dati (classificazione, DLP). La platform diversity riduce il rischio di monoculture ma aumenta la complessità.
Physical Attacks#
mindmap
root((Physical
Attacks))
Card Skimming
reads card data
ATM POS terminal
Card Cloning
duplicates the card
RFID proximity card
Brute Force
physical force
locks doors
Environmental
HVAC manipulation
temperature humidity
power attacks
Gli attacchi fisici mirano direttamente all'hardware, ai sistemi fisici o all'ambiente in cui operano. Spesso precedono o accompagnano attacchi logici.
Card Skimming and Card Cloning#
Card skimming: lettura non autorizzata dei dati da una card (carta di credito, badge RFID). L'attaccante installa un dispositivo reader nascosto su un ATM, un terminale POS o un lettore di badge legittimo: quando la vittima usa la card, il dispositivo legge e registra i dati della banda magnetica o del chip RFID.
Card cloning: duplicazione di una card a partire dai dati rubati con lo skimming. Con i dati della banda magnetica, l'attaccante scrive una card clone che funziona come l'originale. Per le proximity card RFID, dispositivi economici (es. ACR122U) possono clonare badge di building access in pochi secondi a distanza ravvicinata (vedi RFID Attacks).
Il contromisure: smart card con crittografia (più difficili da clonare della sola banda magnetica), MFA fisico (badge + PIN), ispezioni periodiche dei reader per rilevare skimmer nascosti.
Brute Force Attacks#
Nel contesto fisico, un brute force attack (attacco a forza bruta) è l'uso della forza fisica per superare misure di sicurezza: forzare una serratura, sfondare una porta, rompere un lucchetto. Non è una tecnica sofisticata, ma è efficace contro controlli fisici deboli.
Non confondere con il brute force attack sulle password (vedi Password Attacks): stesso nome, contesto completamente diverso. L'esame Security+ può chiedere entrambi.
Contromisure: serrature di qualità (high-security locks), porte rinforzate, rilevatori di intrusione (sensori di vibrazione/impatto), guardie.
Environmental Attacks#
Gli environmental attacks (attacchi ambientali) mirano a compromettere i sistemi manipolando le condizioni fisiche dell'ambiente in cui operano:
| Tipo | Descrizione | Impatto |
|---|---|---|
| HVAC manipulation | Manipolazione del sistema di riscaldamento/raffreddamento (Heating, Ventilation, Air Conditioning). Spegnere il raffreddamento di un data center causa surriscaldamento e spegnimento dei server | Availability (server si spengono per protezione termica) |
| Temperature/humidity | Temperature estreme o umidità elevata danneggiano l'hardware fisicamente | Availability, e potenzialmente Integrity se i dati vengono corrotti |
| Power attacks | Interruzione dell'alimentazione (fisicamente staccare la corrente) o variazioni di tensione che danneggiano i componenti | Availability, possibile corruzione dati (vedi #Power Redundancies) |
Contromisure: controllo degli accessi fisici all'HVAC, ridondanza energetica (UPS, generatori), monitoraggio della temperatura (alert automatici), separazione delle infrastrutture critiche.
Da ricordare: card skimming = lettura non autorizzata dei dati della card. Card cloning = duplicazione della card con i dati rubati. Brute force fisico = forza fisica su serrature/porte. Environmental attacks = compromissione tramite ambiente (temperatura, alimentazione, HVAC).
Adding Redundancy and Fault Tolerance#
mindmap
root((Redundancy
and Fault Tolerance))
Single Point of Failure
SPOF elimination goal
Disk Redundancy
RAID 0 no redundancy
RAID 1 mirror
RAID 5 parity
RAID 6 double parity
RAID 10 mirror plus stripe
Server HA
Active Active
Active Passive
Load Balancers
NIC Teaming
multiple NICs
bandwidth + failover
Power
UPS
Generators
PDU
La redundancy (ridondanza) e la fault tolerance (tolleranza ai guasti) sono strategie che garantiscono la continuità operativa eliminando o minimizzando i single point of failure (SPOF): punti in cui un singolo guasto causa l'interruzione dell'intero servizio.
Single Point of Failure#
Un SPOF (Single Point of Failure) è un componente il cui guasto causa il fallimento dell'intero sistema. Eliminare i SPOF è l'obiettivo primario della ridondanza.
Esempi di SPOF comuni:
- Un singolo disco su cui girano tutti i dati (senza RAID)
- Un singolo switch che connette tutti i server
- Un singolo ISP per la connettività internet
- Un singolo alimentatore in un server critico
- Un singolo datacenter in una sola città
La ridondanza aggiunge componenti di backup che entrano in funzione quando il componente primario fallisce, eliminando (o riducendo) il downtime.
Disk Redundancies#
Il RAID (Redundant Array of Independent Disks) combina più dischi fisici per migliorare performance, ridondanza o entrambe. I livelli principali testati all'esame:
| RAID | Nome | Dischi min | Ridondanza | Performance | Come funziona |
|---|---|---|---|---|---|
| RAID 0 | Striping | 2 | Nessuna | Lettura/scrittura molto alta | Divide i dati tra i dischi (stripe). Se un disco fallisce, si perdono TUTTI i dati |
| RAID 1 | Mirroring | 2 | Si (1 disco) | Lettura alta, scrittura normale | Copia identica (mirror) dei dati su ogni disco. Se un disco fallisce, l'altro contiene tutto |
| RAID 5 | Striping con parità | 3 | Si (1 disco) | Bilanciata | Divide i dati e la parità tra tutti i dischi. Se un disco fallisce, i dati si ricostruiscono dalla parità |
| RAID 6 | Striping con doppia parità | 4 | Si (2 dischi) | Lettura alta, scrittura leggermente ridotta | Come RAID 5 ma con due blocchi di parità. Tollera il fallimento di 2 dischi contemporaneamente |
| RAID 10 | Mirror + Stripe | 4 | Si (1 disco per coppia) | Lettura/scrittura molto alta | Combina RAID 1 e RAID 0: prima specchia (RAID 1), poi fa striping delle coppie spegliate (RAID 0). Alta performance E ridondanza |
RAID 0 NON offre ridondanza: aumenta le performance dividendo i dati su più dischi, ma qualsiasi guasto causa perdita totale dei dati. Per l'esame: RAID 0 = no fault tolerance, RAID 1 = mirror puro, RAID 5 = minimo 3 dischi, RAID 6 = tolera 2 guasti, RAID 10 = minimo 4 dischi, best of both.
Da ricordare: RAID non sostituisce i backup. RAID protegge da guasti hardware del disco, non da cancellazione accidentale, ransomware, o corruzione logica dei dati. Un ransomware cifra tutti i file accessibili: se il RAID è montato, viene cifrato anche lui.
Server Redundancy and High Availability#
La high availability (HA) garantisce che i servizi siano disponibili continuamente, eliminando il downtime causato da guasti hardware o software. Si ottiene con cluster di server in configurazione attiva.
Active/Active Load Balancers#
In una configurazione active/active, tutti i server nel cluster sono operativi e gestiscono traffico contemporaneamente. Il load balancer distribuisce le richieste tra tutti i server attivi:
Client → Load Balancer → Server A (attivo, 33% del traffico)
→ Server B (attivo, 33% del traffico)
→ Server C (attivo, 33% del traffico)Se un server fallisce, il load balancer reindirizza automaticamente il suo traffico agli altri. Vantaggio: massimo utilizzo delle risorse e migliore performance. Svantaggio: quando un nodo fallisce, il traffico si distribuisce su meno nodi (potenziale sovraccarico se non dimensionato correttamente).
Active/Passive Load Balancers#
In una configurazione active/passive, solo alcuni server gestiscono il traffico (active); gli altri sono in standby (passive) e non ricevono traffico finché il primario non fallisce:
Client → Load Balancer → Server A (attivo, gestisce tutto)
→ Server B (passivo, standby)Se il server A fallisce, il load balancer promuove il server B ad active. Vantaggio: il server passivo è sempre pronto e integro. Svantaggio: le risorse del server passivo sono sprecate in condizioni normali.
Dev parallel: nelle architetture cloud è la stessa logica dei multi-region deployment: active/active = due region che gestiscono entrambe il traffico (es. eu-west-1 + us-east-1 con Route53 latency-based routing); active/passive = una region primaria, una in standby che prende il traffico solo se la primaria è down (failover routing).
NIC Teaming#
Il NIC teaming (chiamato anche link aggregation o bonding) combina più NIC (Network Interface Card) su un singolo server in un'unica interfaccia logica. Offre due benefici:
- Fault tolerance: se una NIC o il cavo collegato fallisce, le altre continuano a funzionare senza interruzione del servizio.
- Increased bandwidth: il traffico viene distribuito su tutte le NIC attive, sommando la loro banda (es. 4x 1Gbps NIC = fino a 4Gbps effettivi).
Lo standard IEEE è il 802.3ad (LACP - Link Aggregation Control Protocol): richiede il supporto anche sullo switch a cui il server è connesso.
Power Redundancies#
I sistemi critici richiedono ridondanza anche nell'alimentazione elettrica:
| Componente | Espansione | Funzione |
|---|---|---|
| UPS | Uninterruptible Power Supply | Batteria che entra in funzione immediatamente in caso di blackout, permettendo un graceful shutdown o tenendo il sistema attivo per pochi minuti fino all'avvio del generatore |
| Generator | - | Generatore diesel/gas che fornisce corrente per periodi prolungati (ore/giorni). Ha un tempo di avvio (10-30 secondi): il UPS colma il gap tra blackout e avvio generatore |
| PDU | Power Distribution Unit | Distribuisce l'alimentazione agli apparati nel rack. In configurazione ridondante, ogni server ha due alimentatori collegati a due PDU diverse, alimentate da due sorgenti distinte |
| Dual power feeds | - | Due linee elettriche indipendenti da fornitori diversi o da trasformatori diversi: elimina il SPOF a livello di rete elettrica |
Da ricordare: RAID 1 = mirror (2 dischi identici). RAID 5 = parità distribuita (min 3 dischi, tollera 1 guasto). RAID 6 = doppia parità (min 4 dischi, tollera 2 guasti). RAID 10 = mirror+stripe (min 4 dischi, alta performance E ridondanza). Active/active: tutti i nodi gestiscono traffico. Active/passive: un nodo in standby. UPS = bridging immediato, generatore = continuità prolungata.
Protecting Data with Backups#
mindmap
root((Protecting Data
with Backups))
Backup Media
tape disk cloud
Backup Types
Full
everything
Differential
since last full
Incremental
since last backup
Offline Immutable
air-gapped
WORM
Geographic
offsite 3-2-1 rule
Testing
restoration drills
I backup sono il controllo di sicurezza fondamentale per garantire la recovery dei dati dopo un incidente (ransomware, guasto hardware, cancellazione accidentale, disastro naturale). Un backup non testato non è un backup: è solo una speranza.
Backup Media#
I backup possono essere salvati su supporti diversi:
| Media | Vantaggi | Svantaggi |
|---|---|---|
| Tape (nastro magnetico LTO) | Economico per grandi volumi, ottimo per archivio long-term | Lento da leggere (accesso sequenziale), richiede hardware dedicato |
| Disk (HDD/SSD) | Veloce, accesso random, facile da gestire | Più costoso del nastro per grandi volumi |
| Cloud | Offsite automatico, scalabile, accessibile ovunque | Costo ricorrente, dipendenza dal provider, banda necessaria per upload/download |
La regola 3-2-1 è la best practice per i backup: 3 copie dei dati, su 2 media diversi, con 1 copia offsite (geograficamente separata).
Online Versus Offline Backups#
Prima di approfondire i tipi di backup, è importante distinguere:
- Online backup: il backup è accessibile dalla rete (NAS, storage condiviso, cloud). Vantaggio: restore rapido. Svantaggio: se un ransomware compromette il sistema, può raggiungere anche i backup online.
- Offline backup: il backup è fisicamente disconnesso (nastro in cassaforte, disco staccato). Non raggiungibile dalla rete. Vantaggio: immune a ransomware e attacchi logici. Svantaggio: restore più lento.
Full Backups#
Un full backup (backup completo) copia TUTTI i dati selezionati, indipendentemente da quando sono stati modificati. E' il tipo più semplice da capire e da ripristinare: per un restore completo serve solo l'ultimo full backup.
Svantaggi: richiede il tempo e lo spazio maggiore tra tutti i tipi. Per grandi dataset, un full backup giornaliero potrebbe essere impraticabile.
Recovering a Full Backup: il restore richiede solo un singolo set di backup (l'ultimo full). Processo più semplice possibile.
Differential Backups#
Un differential backup (backup differenziale) copia tutti i dati che sono stati modificati o creati dall'ultimo full backup, indipendentemente da quanti differential backup siano stati eseguiti nel frattempo.
Esempio: full backup domenica. Differential lunedi = tutto ciò che è cambiato da domenica. Differential martedi = tutto ciò che è cambiato da domenica (non solo da lunedi). Ogni differential include sempre tutti i cambiamenti dall'ultimo full.
Order of Recovery for a Full/Differential Backup Set: per il restore completo servono 2 elementi: (1) l'ultimo full backup + (2) l'ultimo differential backup. Il differential martedi contiene già tutto quello che conteneva il differential lunedi, quindi non serve ripristinare il lunedi.
| Giorno | Cosa si fa | Contenuto |
|---|---|---|
| Dom | Full backup | Tutto (100 GB) |
| Lun | Differential | Cambiamenti da domenica (10 GB) |
| Mar | Differential | Cambiamenti da domenica (20 GB, include i 10 di lunedi) |
| Mer | Differential | Cambiamenti da domenica (30 GB, include i 20 di martedi) |
Per restore completo a mercoledi: Full Dom + Differential Mer (2 set). Semplice da ripristinare. Ogni differential cresce nel tempo finche' non si esegue un nuovo full.
Incremental Backups#
Un incremental backup (backup incrementale) copia solo i dati modificati dall'ultimo backup (full O incrementale). A differenza del differential che guarda sempre all'ultimo full, l'incremental guarda sempre all'ultimo backup di qualsiasi tipo.
Esempio: full domenica. Incrementale lunedi = cambiamenti da domenica. Incrementale martedi = cambiamenti da LUNEDI (non da domenica). Ogni incrementale e' piu' piccolo e veloce del differential corrispondente.
Order of Recovery for a Full/Incremental Backup Set: per il restore completo servono il full + TUTTI gli incrementali in sequenza: (1) full domenica + (2) incrementale lunedi + (3) incrementale martedi + ... Il restore e' piu' complesso e lento: bisogna ripristinare piu' set in sequenza.
| Giorno | Cosa si fa | Contenuto |
|---|---|---|
| Dom | Full backup | Tutto (100 GB) |
| Lun | Incremental | Cambiamenti da Dom (10 GB) |
| Mar | Incremental | Cambiamenti da LUN (5 GB) |
| Mer | Incremental | Cambiamenti da MAR (8 GB) |
Per restore completo a mercoledi: Full Dom + Inc Lun + Inc Mar + Inc Mer (4 set). Piu' complesso, ma ogni backup giornaliero e' piu' veloce e piccolo.
Choosing Full, Incremental or Full/Differential#
| Strategia | Backup speed | Restore speed | Storage |
|---|---|---|---|
| Full giornaliero | Lento | Veloce (1 set) | Alto |
| Full + Differential | Medio | Veloce (2 set) | Medio (differential cresce) |
| Full + Incremental | Veloce | Lento (N set) | Basso |
La scelta dipende dal trade-off tra quanto spazio si ha e quanto deve essere veloce il restore. In produzione si combinano spesso: full settimanale + incrementali giornalieri, con un differential a meta' settimana come compromesso.
Per l'esame: differential = sempre dall'ultimo FULL. Incremental = dall'ultimo BACKUP (qualsiasi). Restore differential = 2 set (full + ultimo differential). Restore incremental = N set (full + tutti gli incrementali in ordine).
Offline and Immutable Backups#
Offline backup (air-gapped): il backup e' fisicamente disconnesso dalla rete. Immune ad attacchi ransomware che tentano di cifrare i backup online. Critico per la recovery da ransomware: senza backup offline, l'unica alternativa e' pagare il riscatto o perdere i dati.
Immutable backup: i dati sono scritti una volta sola e non possono essere modificati o eliminati per un periodo definito. Tecnologia WORM (Write Once, Read Many): originariamente nastri fisici, oggi implementata anche nel cloud (es. AWS S3 Object Lock, Azure Immutable Blob Storage). Un ransomware non puo' cifrare o eliminare backup immutabili.
Replication and Journaling#
Replication (replica): copia continua dei dati in tempo reale su un secondo sistema (locale o geograficamente separato). A differenza del backup, la replica e' sincrona o quasi-sincrona: ogni scrittura viene immediatamente duplicata. Garantisce un RPO (Recovery Point Objective) vicino a zero, ma se un ransomware cifra i dati primari, la replica li cifra immediatamente anche sul secondario.
Journaling: tecnica usata dai filesystem per registrare le modifiche prima di applicarle (write-ahead log). Garantisce l'integrita' del filesystem in caso di crash improvviso (es. blackout durante una scrittura). Non e' un backup: e' una misura di integrita' del filesystem.
Backup Frequency#
La frequenza dei backup determina il RPO (Recovery Point Objective): quanti dati al massimo si possono perdere in caso di disastro (vedi #Recovery Point Objective). Se si fa un backup ogni 24 ore, l'RPO e' di 24 ore: in caso di disastro si perdono al massimo le ultime 24 ore di dati.
La frequenza dipende da quanto frequentemente cambiano i dati e da quanto perdita di dati e' accettabile per il business.
Testing Backups#
Un backup non testato non e' un backup. I backup devono essere testati periodicamente eseguendo restore reali: verificare che i file siano integri, che il processo funzioni, e che il RTO (Recovery Time Objective) sia rispettato.
Errori comuni che si scoprono solo al restore: backup corrotti, procedura di restore non documentata, permessi sbagliati sui file ripristinati, dipendenze non incluse nel backup (configurazioni, certificati, credenziali).
Backups and Geographic Considerations#
Un backup nello stesso edificio del sistema primario non protegge da disastri fisici (incendio, allagamento, terremoto). Le best practice prevedono:
- Offsite backup: copia dei backup in una location geograficamente separata.
- Distanza minima: sufficiente da non essere colpiti dallo stesso disastro naturale (es. non nella stessa citta' in zona sismica).
- Cloud backup: il cloud e' nativamente offsite, ma richiede verifica della geolocalizzazione dei datacenter del provider e rispetto delle normative sulla residenza dei dati (es. GDPR: dati UE devono rimanere in UE).
Da ricordare: full backup = tutto. Differential = dall'ultimo full, restore con 2 set. Incremental = dall'ultimo backup, restore con N set. Immutable backup = WORM, immune a ransomware. Regola 3-2-1 = 3 copie, 2 media, 1 offsite. Testare i backup periodicamente.
Comparing Business Continuity Elements#
mindmap
root((Business
Continuity))
BIA
identifies critical processes
RTO RPO
MTBF MTTR
COOP
site redundancy
hot warm cold
restoration order
Disaster Recovery
DR plan
exercises
tabletop
simulation
parallel
full cutover
Capacity Planning
people technology infrastructure
Il Business Continuity Planning (BCP) e' il processo di garantire che le operazioni critiche di un'organizzazione possano continuare durante e dopo un'interruzione. Include la prevenzione delle interruzioni, la risposta alle interruzioni e il recupero.
Business Impact Analysis Concepts#
Una Business Impact Analysis (BIA) identifica e prioritizza le funzioni e i processi aziendali critici, determinando l'impatto di un'interruzione su di essi. E' il prerequisito di qualsiasi piano di business continuity: senza sapere quale processo e' piu' critico, non si possono allocare le risorse di recovery in modo efficace.
Site Risk Assessment#
Prima di pianificare la continuita', un'organizzazione valuta i rischi specifici della propria location fisica:
- Rischi naturali (terremoti, alluvioni, uragani, incendi boschivi) tipici della regione geografica.
- Rischi industriali (impianti chimici vicini, aeroporti).
- Rischi infrastrutturali (affidabilita' della rete elettrica locale, connettivita' internet).
Questa valutazione informa le scelte su dove collocare i siti di backup e quali scenari di disaster recovery pianificare.
Impact#
L'impact (impatto) di un'interruzione misura le conseguenze negative per l'organizzazione: perdita di ricavi, danni alla reputazione, sanzioni normative, perdita di clienti. La BIA quantifica l'impatto per ogni processo critico, spesso in termini monetari per ora di downtime.
Recovery Time Objective#
Il RTO (Recovery Time Objective) e' il tempo massimo accettabile per ripristinare un sistema o un processo dopo un'interruzione. E' una soglia definita dal business, non un valore tecnico:
- RTO = 4 ore: il business accetta al massimo 4 ore di downtime. I sistemi di recovery devono essere dimensionati per rispettare questa soglia.
- RTO = 0 (zero downtime): richiede ridondanza attiva (active/active), molto costosa.
Dev parallel: l'RTO e' il SLA interno sulla recovery. Come un SLA su un'API (99.9% uptime = max 8,7 ore/anno di downtime), il RTO e' il "quanto possiamo stare giu' prima che diventi un problema serio per il business".
Recovery Point Objective#
Il RPO (Recovery Point Objective) e' la quantita' massima di dati che l'organizzazione puo' permettersi di perdere, misurata nel tempo. Determina la frequenza dei backup:
- RPO = 1 ora: backup ogni ora. In caso di disastro si perdono al massimo 1 ora di dati.
- RPO = 0: replica sincrona in tempo reale. Nessuna perdita di dati accettabile.
| Metrica | Misura | Domanda |
|---|---|---|
| RTO | Tempo di recovery | Quanto velocemente devo tornare operativo? |
| RPO | Perdita di dati accettabile | Quanti dati posso perdere? |
Comparing MTBF and MTTR#
| Metrica | Espansione | Definizione | Obiettivo |
|---|---|---|---|
| MTBF | Mean Time Between Failures | Tempo medio tra un guasto e il successivo. Misura l'affidabilita' di un componente | Piu' alto e' meglio: componenti con MTBF alto si rompono raramente |
| MTTR | Mean Time To Repair | Tempo medio necessario per riparare un componente guasto e riportarlo in funzione | Piu' basso e' meglio: team efficiente che risolve i guasti rapidamente |
Esempio: un disco ha MTBF di 100.000 ore. Ci si aspetta un guasto ogni 100.000 ore operative (~11 anni). Una volta guasto, l'MTTR indica quanto ci vuole per sostituirlo e ripristinare i dati dal backup.
MTBF alto + MTTR basso = alta disponibilita'. Un MTBF basso (componenti inaffidabili) o un MTTR alto (recovery lenta) si traducono entrambi in bassa disponibilita'.
Dev parallel: MTBF e MTTR sono le stesse metriche che usi su un servizio cloud: l'MTBF e' il tempo tra gli outage, l'MTTR e' il tempo per ripristinare il servizio dopo un outage. AWS/GCP/Azure pubblicamente tracciano entrambe nelle post-mortem degli incident report.
Continuity of Operations Planning#
Il COOP (Continuity of Operations Planning) definisce come l'organizzazione mantiene le funzioni critiche durante e dopo un'interruzione. Include la selezione di siti alternativi e l'ordine di ripristino.
Site Redundancy#
Quando un sito primario diventa inaccessibile (disastro, guasto, attacco), l'organizzazione ha bisogno di un sito alternativo. Esistono tre livelli di sito di backup, in ordine decrescente di costo e crescente di RTO:
| Tipo | Stato | RTO | Costo | Descrizione |
|---|---|---|---|---|
| Hot site | Completamente operativo | Minuti | Alto | Sistema identico al primario, con dati aggiornati in tempo reale (replica). Si attiva immediatamente. |
| Warm site | Parzialmente configurato | Ore | Medio | Hardware e connettivita' presenti, ma i dati vanno ripristinati dal backup. Richiede alcune ore per diventare operativo. |
| Cold site | Solo spazio fisico e alimentazione | Giorni | Basso | Solo l'edificio con corrente e connettivita'. Hardware da installare, software da configurare, dati da ripristinare. Richiede giorni. |
La scelta del tipo di sito dipende dall'RTO definito nella BIA: un RTO di 4 ore esclude un cold site, un RTO di ore esclude un hot site se il budget non lo permette.
Restoration Order#
Il restoration order (ordine di ripristino) definisce la sequenza con cui i sistemi vengono riportati online dopo un'interruzione. Non tutto si ripristina contemporaneamente: i sistemi critici hanno la precedenza.
Criterio tipico:
- Infrastruttura di rete (firewall, switch, router) - senza rete niente altro funziona
- Active Directory / servizi di autenticazione - senza autenticazione gli utenti non possono lavorare
- Servizi critici di business (ERP, sistemi di pagamento, email)
- Applicazioni secondarie
L'ordine e' definito nella BIA in base alla criticita' di ogni sistema per il business.
Disaster Recovery#
Il Disaster Recovery (DR) e' il sottoinsieme del BCP che si occupa specificamente del ripristino dei sistemi IT dopo un disastro. Un DR plan (piano di disaster recovery) documenta le procedure per rispondere a scenari specifici di interruzione.
Testing Plans with Exercises#
Un DR plan non testato e' inutile: non si sa se funziona finche' non si ha un vero disastro. Esistono quattro tipi di esercitazioni per testare i piani, in ordine crescente di invasivita' e realismo:
Tabletop Exercises#
Un tabletop exercise (esercitazione da tavolo) e' una discussione facilitata in cui i partecipanti chiave parlano di cosa farebbero in risposta a un determinato scenario di disastro. Non si eseguono azioni reali: si discutono le procedure, si identificano gap, si verificano le responsabilita'.
Analogia: e' come fare un code review di un runbook prima di eseguirlo: si leggono le procedure, si identificano ambiguita', si verifica che tutti sappiano cosa fare, senza toccare nessun sistema.
Simulations#
Le simulations (simulazioni) vanno un passo oltre il tabletop: i partecipanti eseguono le procedure del DR plan in un ambiente simulato o su sistemi non critici, senza impattare la produzione. Testano se le procedure funzionano davvero, non solo se sembrano ragionevoli sulla carta.
Parallel Processing#
Il parallel processing (elaborazione parallela, anche chiamato parallel test) attiva il sito di disaster recovery mentre il sito primario continua a operare. I due sistemi girano in parallelo per verificare che il sito DR sia funzionale e che i dati siano consistenti, senza interrompere il servizio.
E' il test piu' realistico senza rischio: se il sito DR ha problemi, il sito primario e' ancora operativo. Il costo e' elevato (due infrastrutture in funzione contemporaneamente).
Full Cutover Tests#
Un full cutover test (o failover test completo) sposta effettivamente tutto il traffico e le operazioni dal sito primario al sito di DR. E' il test piu' realistico: simula esattamente cosa succederebbe in un disastro reale.
E' anche il piu' rischioso: se il sito DR ha problemi, l'organizzazione non ha fallback immediato. Per questo si esegue raramente, tipicamente una volta all'anno, e con molta pianificazione.
| Tipo di test | Sistemi reali coinvolti | Interruzione produzione | Realismo |
|---|---|---|---|
| Tabletop | Nessuno | No | Basso |
| Simulation | Sistemi non critici | No | Medio |
| Parallel processing | DR + Primario | No | Alto |
| Full cutover | DR (primario in standby) | Potenziale | Massimo |
Da ricordare: tabletop = discussione, nessuna azione reale. Simulation = procedure eseguite in ambiente simulato. Parallel = DR attivato mentre il primario gira. Full cutover = tutto il traffico sul DR.
Capacity Planning#
Il capacity planning (pianificazione della capacita') garantisce che l'organizzazione abbia risorse sufficienti per operare in condizioni normali e durante una crisi. Riguarda tre dimensioni:
- People: il personale sufficiente e con le competenze giuste per operare i sistemi critici, anche durante un'emergenza. Evitare dipendenza da singole persone con conoscenza esclusiva (key person risk, l'equivalente umano di un SPOF).
- Technology: sistemi e software scalabili che possono gestire picchi di carico imprevisti senza degradare le performance.
- Infrastructure: banda di rete, storage, potenza di elaborazione adeguati sia per la normale operativita' sia per scenari di recovery.
Dev parallel: il capacity planning e' la pianificazione che fai prima di un lancio di prodotto o di uno scaling orizzontale su cloud: quantifica quante risorse servono (vCPU, RAM, banda, storage), e verifica che l'infrastruttura tenga in scenari di picco. In un contesto DR, significa verificare che il sito hot/warm abbia abbastanza risorse da gestire il carico del sito primario, non solo esistere.
Da ricordare: BIA identifica i processi critici e il loro impatto. RTO = tempo massimo per il recovery. RPO = massima perdita di dati accettabile. MTBF = affidabilita' del componente. MTTR = velocita' di recovery. Hot site = operativo subito. Warm site = ore. Cold site = giorni. Tabletop = discussione. Full cutover = test reale completo.




