1. Koncept maskovania údajov
Maskovanie údajov je tiež známe ako maskovanie údajov. Ide o technickú metódu na konverziu, úpravu alebo zakrytie citlivých údajov, ako je číslo mobilného telefónu, číslo bankovej karty a ďalšie informácie, ak máme stanovené pravidlá a zásady maskovania. Táto technika sa primárne používa na zabránenie priameho použitia citlivých údajov v nespoľahlivých prostrediach.
Princíp maskovania údajov: Maskovanie údajov by malo zachovať pôvodné charakteristiky údajov, obchodné pravidlá a relevantnosť údajov, aby sa zabezpečilo, že následný vývoj, testovanie a analýza údajov nebudú ovplyvnené maskovaním. Zabezpečte konzistentnosť a platnosť údajov pred a po maskovaní.
2. Klasifikácia maskovania údajov
Maskovanie údajov možno rozdeliť na maskovanie statických údajov (SDM) a dynamické maskovanie údajov (DDM).
Maskovanie statických údajov (SDM): Maskovanie statických údajov vyžaduje vytvorenie novej databázy neprodukčného prostredia na izoláciu od produkčného prostredia. Citlivé údaje sa extrahujú z produkčnej databázy a následne sa uložia do neprodukčnej databázy. Týmto spôsobom sú znecitlivené dáta izolované od produkčného prostredia, čo spĺňa obchodné potreby a zaisťuje bezpečnosť produkčných dát.
Dynamické maskovanie údajov (DDM): Vo všeobecnosti sa používa v produkčnom prostredí na znecitlivenie citlivých údajov v reálnom čase. Niekedy sú na čítanie rovnakých citlivých údajov v rôznych situáciách potrebné rôzne úrovne maskovania. Napríklad rôzne roly a povolenia môžu implementovať rôzne maskovacie schémy.
Aplikácia na podávanie správ a maskovanie dátových produktov
Takéto scenáre zahŕňajú najmä interné produkty monitorovania údajov alebo billboardy, externé dátové produkty služieb a správy založené na analýze údajov, ako sú obchodné správy a preskúmanie projektov.
3. Riešenie na maskovanie údajov
Bežné schémy maskovania údajov zahŕňajú: zneplatnenie, náhodnú hodnotu, nahradenie údajov, symetrické šifrovanie, priemernú hodnotu, posun a zaokrúhľovanie atď.
Invalidácia: Zrušenie platnosti sa týka šifrovania, skrátenia alebo skrytia citlivých údajov. Táto schéma zvyčajne nahrádza skutočné údaje špeciálnymi symbolmi (napríklad *). Operácia je jednoduchá, ale používatelia nemôžu poznať formát pôvodných údajov, čo môže ovplyvniť následné dátové aplikácie.
Náhodná hodnota: Náhodná hodnota sa vzťahuje na náhodné nahradenie citlivých údajov (číslice nahrádzajú číslice, písmená písmená a znaky znaky). Tento spôsob maskovania do určitej miery zabezpečí formát citlivých údajov a uľahčí následnú aplikáciu údajov. Pre niektoré zmysluplné slová, ako sú mená ľudí a miest, môžu byť potrebné maskovacie slovníky.
Výmena dát: Nahradenie údajov je podobné maskovaniu nulových a náhodných hodnôt, s výnimkou toho, že namiesto použitia špeciálnych znakov alebo náhodných hodnôt sa maskovacie údaje nahradia špecifickou hodnotou.
Symetrické šifrovanie: Symetrické šifrovanie je špeciálna metóda reverzibilného maskovania. Šifruje citlivé údaje pomocou šifrovacích kľúčov a algoritmov. Formát šifrovaného textu je konzistentný s pôvodnými údajmi v logických pravidlách.
Priemerná: Priemerná schéma sa často používa v štatistických scenároch. Pri numerických údajoch najprv vypočítame ich priemer a potom náhodne rozložíme znecitlivené hodnoty okolo priemeru, čím udržíme súčet údajov konštantný.
Ofset a zaoblenie: Táto metóda mení digitálne údaje náhodným posunom. Ofsetové zaokrúhľovanie zaisťuje približnú autentickosť rozsahu pri zachovaní bezpečnosti údajov, ktorá je bližšie k reálnym údajom ako predchádzajúce schémy a má veľký význam v scenári analýzy veľkých údajov.
Odporúčaný model"ML-NPB-5660pre maskovanie údajov
4. Bežne používané techniky maskovania údajov
(1). Štatistické techniky
Vzorkovanie údajov a agregácia údajov
- Vzorkovanie údajov: Analýza a vyhodnotenie pôvodného súboru údajov výberom reprezentatívnej podmnožiny súboru údajov je dôležitou metódou na zlepšenie účinnosti techník deidentifikácie.
- Agregácia údajov: Keďže ide o súbor štatistických techník (ako je súčet, počítanie, priemerovanie, maximum a minimum) aplikovaných na atribúty v mikroúdajoch, výsledok je reprezentatívny pre všetky záznamy v pôvodnom súbore údajov.
(2). Kryptografia
Kryptografia je bežnou metódou na znecitlivenie alebo zvýšenie účinnosti znecitlivenia. Rôzne typy šifrovacích algoritmov môžu dosiahnuť rôzne efekty desenzibilizácie.
- Deterministické šifrovanie: Nenáhodné symetrické šifrovanie. Zvyčajne spracováva údaje ID a v prípade potreby dokáže dešifrovať a obnoviť šifrovaný text na pôvodné ID, ale kľúč musí byť správne chránený.
- Ireverzibilné šifrovanie: Na spracovanie údajov sa používa hašovacia funkcia, ktorá sa zvyčajne používa pre ID údaje. Nedá sa priamo dešifrovať a vzťah s mapovaním sa musí uložiť. Okrem toho môže v dôsledku hašovacej funkcie nastať kolízia údajov.
- Homomorfné šifrovanie: Používa sa homomorfný algoritmus šifrového textu. Jeho charakteristikou je, že výsledok operácie so šifrovaným textom je rovnaký ako výsledok operácie s otvoreným textom po dešifrovaní. Preto sa bežne používa na spracovanie numerických polí, ale nie je široko používaný z dôvodov výkonu.
(3). Systémová technológia
Technológia potlačenia odstraňuje alebo chráni položky údajov, ktoré nespĺňajú ochranu súkromia, ale nezverejňuje ich.
- Maskovanie: ide o najbežnejšiu metódu znecitlivenia na maskovanie hodnoty atribútu, ako je číslo súpera, občiansky preukaz je označený hviezdičkou alebo je adresa skrátená.
- Lokálne potlačenie: označuje proces odstraňovania špecifických hodnôt atribútov (stĺpcov), odstraňovania nepodstatných dátových polí;
- Potlačenie záznamov: označuje proces mazania špecifických záznamov (riadkov), mazania nepodstatných dátových záznamov.
(4). Pseudonymná technológia
Pseudomanning je technika deidentifikácie, ktorá používa pseudonym na nahradenie priameho identifikátora (alebo iného citlivého identifikátora). Pseudonymné techniky vytvárajú jedinečné identifikátory pre každý jednotlivý subjekt informácií namiesto priamych alebo citlivých identifikátorov.
- Môže generovať náhodné hodnoty nezávisle, aby zodpovedali pôvodnému ID, uložiť mapovaciu tabuľku a prísne kontrolovať prístup k mapovacej tabuľke.
- Na vytváranie pseudonymov môžete použiť aj šifrovanie, ale musíte si správne ponechať dešifrovací kľúč;
Táto technológia je široko používaná v prípade veľkého počtu nezávislých používateľov údajov, ako napríklad OpenID v scenári otvorenej platformy, kde rôzni vývojári získavajú rôzne Openid pre toho istého používateľa.
(5). Generalizačné techniky
Technika zovšeobecnenia sa vzťahuje na techniku deidentifikácie, ktorá znižuje granularitu vybraných atribútov v súbore údajov a poskytuje všeobecnejší a abstraktnejší popis údajov. Technológia zovšeobecňovania sa ľahko implementuje a môže chrániť autentickosť údajov na úrovni záznamov. Bežne sa používa v dátových produktoch alebo dátových zostavách.
– Zaokrúhľovanie: zahŕňa výber základne zaokrúhľovania pre vybratý atribút, ako je forenzná analýza smerom nahor alebo nadol, výsledkom čoho sú 100, 500, 1 000 a 10 000
- Techniky horného a spodného kódovania: Nahraďte hodnoty nad (alebo pod) prahovou hodnotou prahom predstavujúcim hornú (alebo spodnú) úroveň, čím získate výsledok „nad X“ alebo „pod X“
(6). Randomizačné techniky
Ako druh techniky deidentifikácie sa technológia randomizácie vzťahuje na úpravu hodnoty atribútu prostredníctvom randomizácie tak, aby sa hodnota po randomizácii líšila od pôvodnej skutočnej hodnoty. Tento proces znižuje schopnosť útočníka odvodiť hodnotu atribútu z iných hodnôt atribútu v rovnakom dátovom zázname, ale ovplyvňuje autenticitu výsledných dát, čo je spoločné s dátami z produkčného testu.
Čas odoslania: 27. septembra 2022