还剩22页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
大数据脱敏方案2023-1-15更改履历算法描述假如对于任意相等集内所有记录对应日勺敏感数据日勺集合,包括L个“合适”值,则称该相等集是满足L-Deversity.假如数据集中所有相等集都满足L-Deversity,则称该数据集满足L-Deversityo相对于K-Anonymi ty原则,符合L-Devers ity原则日勺数据集明显减少了属性数据泄漏日勺风险对于满足L-Derversity日勺数据集,理论上,袭击者最多只有1/L日勺概率可以属性泄露袭击,将特定顾客与其敏感信息关联起来通过插入干扰数据构造符合L-Diversity日勺数据集在K-Anonymity日勺基础上,每个数据集中,其敏感信息列有L个不一样日勺值,袭击者只有1/L日勺几率获得对日勺日勺敏感信息ZIP CodeAge Disease476*2*Heart Disease476*2*Heart Disease1476*2*Heart Disease476*2W fnu124790*40Flu14790*40Heart Disease24790*40Cancer3476*3*Heart Disease1476*3*Cancer466*3*-直观的来说,隐私信息泄露的程度可以根据攻击者增量获得的个人信息衡量假设攻击者在访问数据集之前已知的个人信息为B0,Q,Q,,然后假设攻击者访问所有半标识列都已移除的数据集为数据集敏感数据的分布信息根据攻击者更新后的个人信B1息为.最后攻击者访问脱敏后的数据集,由于知道用户的半标识列的信息,攻击者可以将某用户与某相等集联系在一起,P B
2.通过该相等集的敏感数据分布信息,攻击者更新后的个人信息为L-Diversity Pdiversity B0B2约束是通过约束的属性,尽量减少和之间的信息量差距,差距越小,说明隐私信息泄T-Closeness B1B2露越少约束则期望减少和之间的信息量差距,减少攻击者从敏感数据的全局分布信息和相等集分布信T息之间得到更名的今岁私信国-Closeness B2的定义如下某相等集更新后T如果一个相等敏感数据的分布与敏感数据的全局分布之间的距期、于,则称该相等类T-Close*ss,集中的所有相等类都满足则称该数据集满访问脱敏后的数据集T-Qoseness足更薪后个人信息B1通过半标识列信息将用户与某相等集一^可取得半标识列信息露裁间的联系,减^了半标识列T-Closeness约束限定了半标识列属性与敏感信息|B0Q▲访问前已知敏感数据集属性与特定敏感信息的联系,减少攻击者通过敏感信息的分布信息进行属性泄露攻击的可T-Closenes满足的束T能性不过同时也肯定导致了一定程度的信息丢失,所以管理者通过值的大小平衡舌可算法描述:L-Di versity是通过约束P日勺diversity属性,尽量减少B0和B2之间日勺信息量差距,差距越小,阐明隐私信息泄漏越少.T—Closeness约束则期望减少B1和B2之间日勺信息量差距,减少袭击者从敏感数据日勺全局分布信息和相等集分布信息之间得到更多口勺个人隐私信息.假如一种相等类日勺敏感数据口勺分布与敏感数据日勺全局分布之间日勺距离不大于T,则称该相等类满足T-Closeness约束假如数据集中日勺所有相等类都满足T—Closeness,则称该数据集满足T-ClosenessoT—Closeness约束限定了半标识列属性与敏感信息日勺全局分布之间日勺联络,减弱了半标识列属性与特定敏感信息日勺联络,减少袭击者通过敏感信息口勺分布信息进行属性泄露袭击日勺也许性不过同步也肯定导致了一定程度日勺信息丢失,因此管理者通过T值日勺大小平衡数据可用性与顾客隐私保护.原始数据
2.
2.5o1我们以用采顾客数据为例:ORG_NO(单CONS_NO CONS_NAM ELEC_ADDR(用电ELEC_TY LINE_ID TRAD V0LT_C CONTR(户位代码)E(户名)地址)PE_CODE E_C0ODE ACT_C号)DE AP(用电类型)40219520234710AC0010315浙江长兴县供电企业浙江省湖州市长兴县01泗安镇塔上行政村张家湾自然村10019520233720AC00101880浙江奇碟汽浙江省湖州市长兴县01车零部件有限泗安镇五里渡行政村企业五里渡新村自然村10019520231710AC00101240浙江省湖州市长兴县02华能长兴光泗安镇三里亭行政村伏发电有限责亭子头自然村杰夫厂任企业区10019520231540AC001080长兴县泗安浙江省湖州市长兴县01镇钱庄村村民泗安镇钱庄行政村刘委员会小湾自然村40319520232540AC0010280长兴县泗安浙江省湖州市长兴县0镇钱庄村村民泗安镇钱庄行政村刘委员会小湾自然村10019520231610AC0010630浙江物产汽浙江省湖州市长兴县02车安全科技有泗安镇赵村村行政村限企业赵村庙自然村40219520234410AC00102500华能长兴光浙江省湖州市长兴县01伏发电有限责泗安镇三里亭村行政任企业村亭子头自然村40319520232500AC0010180长兴酒安严义明蔬菜种植浙江省湖州市长兴县0园泗安镇塔上村行政村塔上大湾自然村40219520234710AC0010315浙江长兴县浙江省湖州市长兴县供电企业泗安镇塔上行政村张01家湾自然村
225.2K-Anonymi tyk=2O OELEC_TY TRADE_C0V0LT_C0D CONTRACT/RG_NO C0NS_N0ELEC_ADDR PE_C0DE LINE_ID DEE AP浙江省湖州市长兴195202335201*县泗安镇40204000AC00101315浙江省湖州市长兴195202335201*县泗安镇40204000AC0010125001952023浙江省湖州市长兴35200*10003000AC001011880县泗安镇1952023浙江省湖州市长兴35200*10003000AC0010180县泗安镇1952023浙江省湖州市长兴35200*40302023AC0010280县泗安镇浙江省湖州市长兴195202335200*县泗安镇40302023AC0010280浙江省湖州市长兴195202335201*县泗安镇10001000AC001021240浙江省湖州市长兴195202335201*县泗安镇10001000AC
001026302.
2.
5.3L—DiversityL=2ELEC_TY TRADE_C0DV0LT_C0D CONTRACTSG_NO CONS_NO ELEC_ADDR PE_C0DE LINE_ID EE AP1952023浙江省湖州市长兴35201*40204000AC00101315县泗安镇浙江省湖州市长兴195202335201*县泗安镇40204000AC001012500浙江省湖州市长兴195202335200*县泗安镇10003000AC001011880浙江省湖州市长兴195202335200*县泗安镇10003000AC0010180浙江省湖州市长兴195202335200*县泗安镇40302023AC0010280浙江省湖州市长兴195202335200*县泗安镇40302023AC0010280浙江省湖州市长兴195202335200*县泗安镇40302023AC00102120浙江省湖州市长兴195202335201*县泗安镇10001000AC001021240脱敏规则
23.脱敏规则,一般日勺脱敏规则分类为可恢复与不可恢复两类可恢复类,指脱敏后日勺数据可以通过一定日勺方式,可以恢复成本来日勺敏感数据,此类脱敏规则重要指各类加解密算法规则.不可恢复类,指脱敏后日勺数据被脱敏口勺部分使用任何方式都不能恢复出一般可分为替代算法和生成算法两大类替代算法即将需要脱敏口勺部分使用定义好日勺字符或字符串替代,生成类算法则更复杂某些,规定脱敏后日勺数据符合逻辑规则,即是“看起来很真实日勺假数据”常用日勺脱敏规则重要有:编号名称描述示例将数据替代成一种常500—0量,常用作不需要该敏1Hiding(隐匿)630—0感字段时将数据映射为一种hash值(不一定是一Jim,GreenHash ing(hash映一映射),常用作将不-〉2射)定长数据应设成定长日Tom,Cluz-〉hash勺值将数据映射为唯一值,容许根据映射值找回原Permutat ion(唯Smith-Clemetz Jones—3始值,支持对日勺日勺Spefde值映射)聚合或连接操作将数量值增长一种固定253-1253日勺偏移量,隐藏数值4Shift(偏移)部分特性254—1254将数据映射为新值,同500-25000Enumeration(排序映5步保持数据次序400-20230射)—021将数据尾部阶段,只保6Truncation(截断)010—88888888—)010留前半部分10o19990o105—10oOPref ix-preserv ing保持IP前n位不变,199o32o127(局部混淆)混淆其他部分
10.
199.90o106-10o199o
56.192数据长度不变,但只保2345323—234—238Mask(掩码)留部分数据信息14562334-145-3428-209FIoor202305201230:45—(偏移取整)数据或是日期取整202305201200:00脱敏环境24数据脱敏日勺环境一般按照生产环境和非生产环境(开发、测试、外包、数据分析等)进行划分,根据数据脱敏产品应用场景日勺将数据脱敏划分为静态数据脱敏(static datamasking)和动态数据脱敏(dynamic datamasking),静态数据脱敏(SDM)与动态数据脱敏(DDM)重要日勺区别是与否在使用敏感数据当时进行脱敏静态数据脱敏SDM一般用在非生产环境,在敏感数据从生产环境脱敏完毕之后再在非生产环境使用,一般用于处理测试、开发库需要生产库日勺数据量与数据间日勺关联,以排查问题或进行数据分析等,但又不能将敏感数据存储于非生产环境日勺问题动态数据脱敏DDM一般用在生产环境,在访问敏感数据当时进行脱敏,一般用来处理在生产环境需要根据不一样状况对同一敏感数据读取时需要进行不一样级别脱敏曰勺问题数据脱敏方式
3.按照数据处理方式日勺不一样,可以将数据脱敏分为静态数据脱敏和动态数据脱敏两大类,静态数据脱敏
3.1静态数据脱敏指将数据文献进行去敏感、去隐私化日勺处理同步保证数据之间日勺关联关系外发给第三方企业进行开发测试或是数据分析得到日勺分析成果后可以将分析出口勺数据进行回溯该脱敏方式合用于项目开发单位需要获取完整日勺数据才能保证数据分析工作日勺顺利完毕,对于数据提供方,又不但愿敏感数据泄漏出去,在这种状况下,就需要对数据进行可回溯口勺脱敏方式,保证发送出去日勺数据不包括敏感信息,当项目开发单位开发完毕后,将分析系统或成果数据回溯成真实日勺成果数据这样既保证了开发过程中日勺数据共享和成果一致性,又保证了真实数据不会在开发过程中泄漏.静态数据日勺脱敏非常适合数据拥有者在和多种外部开发团体日勺数据融合和数据共享中使用,保证开发、测试环节不会泄漏数据动态数据脱敏32动态数据脱敏指顾客在前端应用处调取后台数据库中敏感数据时,进行数据脱敏,再反馈至前台展现可在通讯层面上,通过代理布署方式,对业务系统数据库中敏感数据进行透明日勺、实时日勺脱敏.一般根据顾客日勺角色、职责和其他IT定义身份特性,动态口勺对生产数据库返回日勺数据进行专门口勺屏蔽、加密、隐藏和审计,可保证不一样级别口勺顾客按照其身份特性恰如其分日勺访问敏感数据,并且不需要对生产数据库中日勺数据进行任何变化动态数据脱敏同样支持同义替代、部分遮蔽、混合脱敏、确定性脱敏及可逆脱敏,一般可根据不一样顾客身份特性,指定授权用户非授权用户A非授权用户B屏蔽值对应日勺数据脱敏算法・・・62257500023187316228-4800-4438-9018脱敏值6225-7500-0231-8731-XXXX-XXXX-87314467-2231-2391-88736228-4800-4438-9018XXXX-XXXX-XXXX-90186471-3981-3902-1290通过动态脱敏功能,可以协助国家电网企业迅速、低风险、平稳日勺提供生产数据库日勺实时隐私保护.经典日勺应用场景体目前1:保护生产环境对于国家电网大型复杂系统环境下,为了给客户提供高水平口勺服务,有时意味着开发人员、数据库管理员、设计人员、专业顾问和其他系统需要不受限制日勺访问生产数据,以便迅速处理重大问题和迅速响应.由此导致了对客户信息、、地址等隐私信息日勺违规访问途径.动态数据脱敏可以有效处理这一风险,并且不会丧失迅速响应日勺能力2减少外包风险对于大型复杂系统,往往依赖大量日勺外包IT人员和开发单位来开展和维护业务,这些外包人员可以通过应用程序,报表和开发、运维工具访问生产数据,这意味着隐私数据完全暴露在不可控日勺环境中;动态数据脱敏可以对不一样顾客和应用口勺访问进行实时日勺隐私数据屏蔽,协助国家电网有效保护重要数据资产的访问3保护通用帐户风险数据库维护人员常常会使用强度很弱的通用密码,便于开发人员和DBA访问和监控生产数据库,便利日勺同步也为获取关键隐私数据开了以便之门通过提供过敏后日勺数据掩码,首先可以防止来自非生产环境日勺登录,并且可以根据规则向不一样口勺登录顾客和系统提供通过脱敏日勺数据大数据的数据脱敏技术
4.大数据平台通过将所有数据整合起来,充足分析与挖掘数据日勺内在价值,为业务部门提供数据平台,数据产品与数据服务大数据平台接入日勺数据中也许包括诸多顾客日勺隐私和敏感信息,如用电记录、用电顾客支付信息、国家机密信息等,这些数据存在也许泄漏日勺风险大数据平台一般通过顾客认证,权限管理以及数据加密等技术保证数据日勺安全,不过这并不能完全从技术上保证数据日勺安全严格日勺来说,任何有权限访问顾客数据日勺人员,如ETL工程师或是数据分析人员等,均有也许导致数据泄漏日勺风险.另首先,没有访问顾客数据权限日勺人员,也也许有对该数据进行分析挖掘日勺需求,数据日勺访问约束大大限制日勺充足挖掘数据价值的范围数据脱敏通过对数据进行脱敏,在保证数据可用性日勺同步,也在一定范围内保证恶意袭击者无法将数据与详细顾客关联到一起,从而保证顾客数据日勺隐私性数据脱敏方案作为大数据平台整体数据安全处理方案日勺重要构成部分,是构建安全可靠日勺大数据平台必不可少的功能特性顾客隐私数据保护与挖掘顾客数据价值是两个互相冲突日勺矛盾体,彻底口勺数据脱敏,需要抹去所有日勺顾客标识信息,使得数据潜在日勺分析价值大大减少另首先,完全保留顾客隐私数据信息,可最大化数据日勺分析价值,同步导致顾客隐私泄露日勺风险无法控制因此大数据脱敏平台日勺设计目口勺并不是实现工具算法用来完全抹去所有日勺顾客标识信息,而是包括如下几种目日勺>数据泄露风险可控首先,实现基于大数据平台日勺脱敏算法库,可并行,高效日勺按照脱敏规则对隐私数据进行脱敏另一方面,基于数据脱敏日勺理论基础,建立顾客隐私数据泄露风险日勺衡量模型,可定性定量口勺精确衡量数据也许发生泄露日勺风险>可管理结合大数据平台口勺顾客认证体系,权限管理体系,以及隐私数据不一样保护级别日勺权限管理体系,实现对隐私数据基于审批的数据访问机制结合企业制度,规范,法务等管理,实目前尽量保护顾客隐私数据,减少数据泄露风险日勺前提下,最大化保留数据分析挖掘日勺价值>可审计对数据日勺访问要保证可回溯,可审计,当发生数据泄露时,要保证可以通过审计日志找到对应日勺泄露人员.大数据平台日勺数据来源比较广泛,根据目前流行日勺数据采集技术,可以分为流式数据和批量数据两种流式数据脱密
4.1流式数据是指不停产生、实时计算、动态增长且规定及时响应日勺数据,它具有海量和实时更改的图表和章版本号修改编号更改时间更改简要描述更改人同意人节号性等特点,一般将实时或准实时日勺数据处理技术归为流式数据处理技术包括Apache Storm.Spark Streaming等
1.基于Storm日勺流式数据脱敏Storm是一种分布式日勺,可靠日勺,容错口勺数据流处理系统.Storm集群日勺输入流由一种被称作spout日勺组件管理,spout把数据传递给bolt,bolt要么把数据保留到某种存储器,要么把数据传递给其他日勺bolto一^中Storm集群就是在一^连串日勺bolt之间转换spout传过来日勺数据对于一种容许增量计算日勺高速事件处理系统,Storm会是最佳选择它可以应对你在客户端等待成果日勺同步,深入进行分布式计算日勺需求,可以使用开箱即用日勺分布式RPC同步Storm使用Apache Thrift,你可以用任何编程语言来编写拓扑构造.由于storm日勺数据处理方式是增量日勺实时处理,我们日勺数据脱敏模块应当具有增量数据脱敏日勺功能当数据源源不停日勺过来,此时我们并没有拿到全量日勺数据,因此基于全量数据日勺脱敏算法这时候是不合用时,不过我们日勺脱敏模块可以去读取历史数据并结合对应日勺算法进行数据脱敏,将敏感词去掉,根据脱敏规则将数据做泛化处理流式数据脱敏日勺优势是从数据发生日勺时刻就进行了数据处理局限性之处是无法运用全量数据做复杂日勺关联处理数据处理流程如下图实时计算Storm增量数据脱敏脱敏后数据脱敏规则数据脱敏算法库
2.基于Spark Streaming日勺流式数据脱敏说到微批处理,假如你必须有状态日勺计算,恰好一次日勺递送,并且不介意高延迟日勺话,那么可以考虑Spark Streaming,尤其假如你还计划图形操作、机器学习或者访问SQL日勺话,Apache Spark日勺stack容许你将某些I ibrary与数据流相结合Spark SQL,Ml Iib,GraphX,它们会提供便捷口勺一体化编程模型尤其是数据流算法例如K均值流媒体容许Spark实时决策日勺增进.批量数据脱敏
4.2批量数据接入是指数据源来自一种稳定日勺、基本不变日勺存储介质,通过数据扫描日勺方式一次性将数据采集到大数据平台来,数据以历史数据为主,数据源一般来自文献、关系型数据库、nosql数据库等处理技术包括:flume、sqoop等批量数据脱敏可以在数据导入口勺过程中进行脱敏,也可以在数据进入大数据平台后,调用脱敏程序模块来进行脱敏,批量数据口勺脱敏可以结合数据日勺关联关系,运用复杂日勺脱敏算法以到达更好日勺脱敏效果,基于flume日勺数据采集方式,可以通过编写拦截器,在拦截器中调用数据脱敏程序,输出脱敏后口勺数据Sqoop是合用于关系型数据库日勺数据采集,可以通过建立中间表,编写UDF程序日勺方式,最终通过任务调度程序,批量日勺对数据进行数据脱敏数据处理流程如下图:数据源访问日志UUidInterceptor要赛Web抽取数据脱敏模块交易数方MySQL1-------SqoopMonooDBRedsHadoop cluster数据脱敏算法库采焉救弟环刖■■财务Oracle数摄SQLServef脱敏规则电力数据脱敏
5.营销数据
5.1调度数据
5.2运检数据
5.3数据
5.4SCADA
1.
1.
1.
3.
1.
1.编写目的
1.
1.本文档描述了数据脱敏日勺研究成果和措施论.意在为具有数据脱敏需求日勺开发人员和项目提供参照和借鉴数据脱敏的定义12敏感数据一般指不妥使用或未经授权被人接触或修改会不利于国家利益或不利于个人依法享有日勺个人隐私权口勺所有信息.工业和信息化部编制日勺《信息安全技术公共及商用服务信息系统个人信息保护指南》明确规定,处理个人信息应当具有特定、明确和合理日勺目日勺,应当在个人信息主体知情日勺状况下获得个人信息主体口勺同意,应当在到达个人信息使用目日勺之后删除个人信息这项原则最明显的特点是将个人信息分为个人一般信息和个人敏感信息,并提出了默许同意和明示同意日勺概念对于个人一般信息日勺处理可以建立在默许同意日勺基础上,只要个人信息主体没有明确表达反对,便可搜集和运用但对于个人敏感信息,则需要建立在明示同意日勺基础上,在搜集和运用之前,必须首先获得个人信息主体明确日勺授权这项原则还正式提出了处理个人信息时应当遵照日勺八项基本原则,即目的明确、至少够用、公开告知、个人同意、质量保证、安全保障、诚信履行和责任明确,划分了搜集、加工、转移、删除四个环节,并针对每一种环节提出了贯彻八项基本原则日勺详细规定.数据脱敏Data Masking,又称数据漂白、数据去隐私化或数据变形.百度百科对数据脱敏日勺定义为指对某些敏感信息通过脱敏规则进行数据日勺变形,实现敏感隐私数据口勺可靠保护.这样,就可以在开发、测试和其他非生产环境以及外包环境中安全地使用脱敏后日勺真实数据集敏感数据,又称隐私数据,常见日勺敏感数据有姓名、身份证号码、地址、号码、银行账号、邮箱地址、所属都市、、密码类(如账户查询密码、取款密码、登录密码等)、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等伴随大数据时代日勺到来,大数据商业价值日勺挖掘,顾客日勺精确定位,大数据中蕊藏日勺巨大商业价值被逐渐挖掘出来,不过同步也带来了巨大日勺挑战-个人隐私信息日勺保护个人信息与个人行为(例如位置信息、消费行为、网络访问行为)等,这些都是人日勺隐私,也是我们所关注的一类敏感信息,在大数据价值挖掘日勺基础上如何保护人口勺隐私信息,也将是数据脱敏必须处理日勺难题.数据脱敏需求
1.
3.伴随国家电网数据应用日勺不停深入,有许多应用需要和外部系统对接,数据需要对外提供服务才能体现出它日勺价值,大数据时代是数据融合日勺时代,怎样在数据融合日勺过程中,保证数据在开发、测试、生产、应用等各个环节日勺安全,成为信息安所有门口勺重要任务.国家电网数据脱敏需求包括通过数据抽取、数据漂白、数据混淆等处理过程,用来满足测试、开发、培训、数据共享和数据融合场景下日勺敏感数据保护需求,并使得数据处理过程满足国家电网日勺敏感数据防护日勺政策规定详细脱敏需求包括>防止生产库中日勺敏感数据泄漏通过对生产库中日勺身份、地址、顾客卡号、号等敏感信息进行混淆、打乱后再提供应第三方使用,防止生产库中日勺敏感数据泄漏>保证测试、开发、应用阶段日勺数据关联性通过脱敏方略和算法,保证脱敏数据有效性(保持原有数据类型和业务格式不变)、完整性(保证长度不变、数据含义不丢失)、关系性(保持表间、表内数据关联关系)以提高测试、开发、应用环节日勺数据真实性和可用性>保证数据维护和数据共享日勺安全对数据库访问者日勺顾客名、IP、工具类型、时间等进行监控,控制数据访问成果日勺差异化,数据成果可以划分为真实数据、掩码数据、数据阻断、行限定数据等,通过访问者日勺不一样访问方略,满足细粒度日勺数据访问需求.例如DBA可维护但无法查看敏感数据、业务系统可以访问真实数据、分析系统可以访问脱敏后日勺数据>保证隐私数据管理日勺政策合规性数据日勺脱敏和数据处理必须在国家电网日勺有关政策规定容许日勺状况下进行,脱敏规则符合国家电网日勺数据管理规定脱敏方案
2.脱敏流程
2.
1.数据脱敏日勺流程一般分为敏感数据发现、敏感数据梳理、脱敏方案制定、脱敏任务执行四大环节,结合数据脱敏算法、数据脱敏规则以及脱敏日勺环境来到达最佳日勺数据脱敏效果敏感数据发现
2.
1.
1.敏感数据日勺发现分为人工发现和自动发现两种对于国家电网相对固定日勺业务数据,可以采用人工甄别,明确指定那些列、那些库口勺数据是需要脱敏,这些数据一般数据构造和数据长度不会有变化,大部分为数值型和固定长度口勺字符.例如单位代码、户号、户名、用电地址等标识歹”,针对这些数据可以通过人工指定脱敏规则和不一样口勺数据访问方略,保证敏感信息不被泄漏自动识别根据人工指定或预定义日勺敏感数据特性,借助敏感数据信息库和分词系统,自动识别数据库中包括日勺敏感信息,相对于人工识别可以减少工作量和防止遗漏一般采用自动发现为主,结合人工发现和审核,来完毕敏感数据口勺发现和定义,最终形成完善日勺敏感数据字典敏感数据梳理
2.
1.
2.在敏感数据发现日勺基础上上,兀十敏感数据列、敏感数据关系通过屏蔽、变形、替代、随机、格式保留加密…*,,保心由勺关帙关据类型进行数据掩码扰乱,3年政据脱敏算法,针对不一样口勺数脱敏方案制定2L、于不一样做据脱敏需求,在基础脱敏算初基础上的制定重要依托脱敏方略和脱敏,,上置专.脱敏方略脱敏方案脱敏任务执行3F-S2”用动、暂停等操作,支持任务并行脱敏任务日勺停止、,支持脱敏任务日勺中断续延等脱敏算法22脱敏算法特性
22.
1.一般根据不一样数据特性选择不T糊脱敏算法全额、口期、住址、号妈、E*地址、,对常见数据如姓名、证件号、银行账户、车架号、车牌号、企业名称、工商注册号、组织机构代码、纳税人识别号等敏感数据进行脱敏,脱敏算法一般包括屏蔽、变形、替代、随机、格式保留加密(FPE)和强加密算法(如AES)o脱敏算法具有如下特性>同义替代使用相似含义的数据替代原有日勺敏感数据,如姓名脱敏后仍然为故意义的姓名,住址脱敏后仍然为住址>部分数据遮蔽将原数据中部分或所有内容,用或#等字符进行替代,遮盖部分或所有原文>混合屏蔽将有关日勺列作为一种组进行屏蔽,以保证这些有关列中被屏蔽日勺数据保持同样日勺关系,例如,都市、省、在屏蔽后保持一致>确定性屏蔽保证在运行屏蔽后生成可反复日勺屏蔽值可保证特定日勺值(如,客户号、身份证号码、银行卡号)在所有数据库中屏蔽为同一种值.>可逆脱敏保证脱敏后日勺数据可还原,便于将第三方分析机构和内部分析团体基于脱敏后数据上日勺分析日勺成果还原为业务数据(匿名)
2.
2.
2.K—Anonym ityK-算法描述:规定对于任意一行记录,其所属日勺相等集内记录数量不不大于k,即至少有k—1条记录半标识列属性值与该条记录相似理论上来说,对于K—Anonymity数据集,对于任意记录,袭击者只有1/k日勺概率将该记录与详细顾客关联算法环节>先移除标识列>泛化半标识列算法优缺陷>长处可以用于保护个人标识泄漏日勺风险>缺陷:轻易受到链接式袭击,无法保护属性泄露日勺风险对于K-Anonymity日勺数据集,袭击者也许通过同质属性袭击与背景知识袭击两种方式袭击顾客日勺属性信息对移除标识列日勺数据根据半标识列进行分组,每组至少有k条记录,每组中至少有k-1条记录日勺半标识列日勺值与该记录相似.ZIP CodeDisease4767729Heart Disease47602476**222*Heart Disease4767827Heart DiseaseFlu47905Heart Disease47909479**Cancer479064760530Heart Disease47673363*Cancer4660732Cancer。
个人认证
优秀文档
获得点赞 0