티스토리 뷰

개인정보 비식별화 관련하여 프로젝트를 맡게 되었다. 그때 작성한 문서를 토대로 게시글을 올려보도록 하겠다.


일단 기본적으로 개인정보에 대한 개념을 파악해보겠다.


개인정보는 살아있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보이며, 해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보를 포함한다따라서, 개인정보는 누군가에 의해 악의적인 목적으로 이용하거나 유출될 경우 개인의 사생활에 큰 피해를 줄 뿐만 아니라 개인 안전과 재산에 피해를 줄 수 있다.


개인정보 비식별화 조치 가이드라인(정부부처 합동(국무조정실, 행자부, 방통위, 미래부, 금융위 등), 개인정보 비식별화 조치 가이드라인, 2016. 06. 30)에 따르면, 비식별 조치기법을 적용해야 하는 식별자(Identifier)와 속성자(Attribute value)는 다음과 같다.



- 식별자와 속성자 예시.


공공정보 개방공유는 투명하고 효율적인 정부 운영에, 빅데이터 활용은 과학적 정책 집행 및 맞춤형 서비스 제공에 필수적인 수단이 되었다. 빅데이터 분석, IoT 기술 등을 통한 새로운 산업과 서비스를 양산해내는 과정에서 개인정보가 불법적으로 오남용되는 사례가 늘어났다.

그 예시로 개인정보 침해신고 상담건수가 2009년부터 급격하게 증가하였다. 시기적으로 2009년 말 아이폰과 국내 통신업계에서도 스마트폰을 내놓으면서 스마트폰이 대중화된 시점이라고 볼 수 있다. 생산되는 데이터가 많다보니 이를 수집하는 측에서 무분별하게 개인정보를 수집했다고 생각할 수 있다.

 

개인정보 침해에 대한 우려와 유출이 지속적으로 일어나고 있는 상황에 대한 해결책으로 개인정보 비식별화에 대한 논의가 지속적으로 되어왔다. 이에 정부는 개인정보 비식별화 조치 가이드라인을 통해 사생활 침해 방지를 위한 안전장치 마련과 동시에 비식별 조치된 정보는 산업적으로 활용할 수 있도록 구체적인 가이드를 제시하고 있다.


그럼 본격적으로 개인정보 비식별화 기술에 대해서 알아보자.


개인정보 비식별화 기술은 수집 또는 사용, 저장, 공유되는 데이터로부터 개인을 식별하지 못하게 조치하는 일련의 방법을 말한다. NIST의 개인정보 비식별화 내부 보고서에 따르면 비식별화의 궁극적인 목표는 아래의 그림과 같이 데이터를 어떤 개인과도 연결할 수 없도록 만드는 것이다.


- 데이터 식별가능성 스펙트럼.


비식별화 정도가 높을수록 데이터의 유용성은 떨어지지만 프라이버시 침해 위험도는 낮아진다.


개인정보 비식별화 조치 가이드라인에서는 가명처리, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹 등 크게 5가지 기법으로 비식별화 기술을 구분하고 있다. 일반적으로 여러 가지 기법을 단독 또는 복합적으로 활용한다. 아래의 표는 한국정보화진흥원에서 제시하고 있는 비식별화 기법에 관련된 세부 방법론이다.


처리 기법

주요 내용 및 처리 예

세부 기술

가명처리 (Pseudonymisation)

주요 식별요소를 다른 값으로 대체

휴리스틱 익명화

K-익명화

암호화

교환 방법

총계처리

(Aggregation)

데이터 총합 또는 부분 집계

총계처리

부분집계

라운딩

재배열

데이터 값 삭제

(Data Reduction)

부분 또는 전체 삭제

속성값 삭제

속성값 부분 삭제

데이터 행 삭제

식별자 제거를 통한 단순 익명화

범주화

(Data Suppression)

범주의 값으로 변환

범주화

랜덤 라운딩

범위 방법

제어 라운딩

데이터 마스킹

(Data Masking)

식별자가 보이지 않도록 부분 또는 전체 처리

임의 잡음 추가

공백과 대체

- 한국정보화진흥원(KISA)에서 제시하고 있는 비식별화 기법.


각각의 기법에는 이를 구현할 수 있는 다양한 세부기술이 있으며, 데이터 이용 목적과 기법별 장단점을 고려하여 적절한 기법세부기술을 활용할 수 있다. 다음은 각각의 기법의 장단점과 세부기술들의 실무 적용 방법에 대해 정리한 내용이다.

 

1) 가명처리(Pseudonymisation)

개인 식별이 가능한 데이터에 대하여 직접적으로 식별할 수 없는 다른 값으로 대체 하는 기법

() 홍길동, 25, 서울 거주, 한국대 재학 임꺽정, 30, 서울 거주, 국제대 재학

 

처리대상 식별정보 : 성명, 기타 고유특징(출신학교, 근무처 등)

장점 : 그 자체로는 완전 비식별화가 가능하며 데이터의 변형, 변질 수준이 적다.

단점 : 일반화된 대체값으로 가명 처리함으로써 성명을 기준으로 한 분석에는 한계가 있다.

 

휴리스틱 익명화(Heuristic Pseudonymization)

- 식별자에 해당하는 값들을 몇 가지 정해진 규칙으로 개인정보를 숨기는 방법이다. 혹은 사람의 판단에 따라 가공하여 자세한 개인 정보를 숨기는 방법이기도 하다.

이 방법은 식별자의 분포를 고려하거나 수집된 자료의 사전 분석을 하지 않고 모든 데이터를 동일한 방법으로 가공하기 때문에 사용자가 쉽게 이해하고 활용할 수 있다. 반면 휴리스틱 익명화 적용 이후의 데이터 유용성이 떨어지고 활용할 수 있는 대체 변수의 한계가 있다.

 

K-익명화(K-anonymity)

- 동일한 속성 값을 가지는 데이터를 k개 이상으로 유지하여 데이터를 공개하는 방법이다. 지정된 속성이 가질 수 있는 값을 일정 수준(k) 이상으로 유지함으로써 프라이버시 누출을 방지한다.

 

암호화(Encryption)

- 정보의 가공에 있어서 일정 규칙의 알고리즘을 적용하여 암호화함으로써 개인정보를 대체하는 방법. 통상적으로 다시 유용하게 사용하기 위해서 복호화가 가능하도록 암복호화 키(Key)를 가지고 있어서 키(Key)에 대한 보안방안도 함께 필요하다. 활용 목적에 따라 단방향 암호화(one-way encryption 또는 hash)를 사용할 수 있으며 이 경우 이론상 개인정보로의 복호화가 원천적으로 불가능하다. 단방향 암호화는 개인정보의 식별성을 완전히 제거하는 것으로, 양방향 암호화에 비해 더욱 안전하고 효과적인 비식별화 기술에 해당한다.

 

교환방법(Swapping)

- 추출된 표본 레코드에 대하여 이루어진다. 미리 정해진 변수(항목)들의 집합에 대하여 데이터베이스의 레코드와 연계하여 교환한다.

총계처리(Aggregation)의 데이터 재배열(rearrangement)과 구분되어, 데이터 재배열은 레코드 값들 간의 교환이 이루어진다. 반면 교환 방법은 사전에 정의된 외부값으로 대체되다.

따라서, 이는 민감한 속성이 있는 경우 그룹 내에서만 교환이 이루어질 경우 전체 그룹을 식별할 수 있는 위험성을 내포하고 있을 때 사전에 정해진 외부값으로 대체하여 민감 정보를 비식별화한다.

 

2) 총계처리(Aggregation)

개인정보에 대하여 통계값(전체 혹은 부분)을 적용하여 특정 개인을 판단할 수 없도록 하는 기법

() 임꺽정 180cm, 홍길동 170cm, 이콩쥐 160cm, 김팥쥐 150cm 물리학과 학생 키 합 : 660cm, 평균키 165cm

처리대상 식별정보 : 개인과 직접 관련된 날짜 정보(생일, 자격 취득일), 기타 고유특징(수입지출, 신체정보, 진료기록, 병력정보, 특정소비기록 등의 개인 민감 정보)

장점 : 민감한 정보에 대하여 비식별화가 가능하며 다양한 통계분석(전체, 부분)용 데이터 셋 작성에 유리하다.

단점 : 집계 처리된 데이터를 기준으로 정밀한 분석이 어려우며 집계 수량이 적을 경우 데이터 결합 과정에서 개인정보 추출 또는 예측이 가능하다.

 

총계처리(Aggregation) 기본방식

- 수집된 정보에 민감한 개인정보가 있을 경우 데이터 집단 또는 부분으로 집계(총합, 평균 등)처리를 하여 민감성을 낮춘다.

예를 들어, 특정 나이 값이 있는 경우 집단의 평균 나이값(대표값)을 구한 후 각 개인정보 속성값을 구해진 대푯값으로 대체하거나 해당 집단의 소득을 전체 평균을 구한 뒤 일정규칙의 오차를 가감하여 각 개인정보의 소득 속성값을 변환한다.

 

부분집계(Micro Aggregation)

- 분석 목적에 따라 부분 그룹만 비식별화한다. , 다른 속성값에 비하여 오차 범위가 큰 항목이나 속성값에 대하여 통계값(평균 등)을 활용하여 값을 변환한다.

예를 들어, 다양한 연령대의 소득 분포에 있어서 40대의 소득 분포 편차가 다른 연령대에 비하여 매우 크거나 특정 소득 구성원을 포함하고 있을 경우, 40대의 소득만 선별하여 평균값을 구한 후 40대에 해당하는 각 개인정보의 소득 속성값을 해당 평균값으로 대체함으로서 식별이 가능한 소득을 가진 40대 일부를 비식별화한다.

 

라운딩(Rounding)

- 집계 처리된 값에 대하여 라운딩(올림, 내림, 반올림) 기준을 적용하여 최종 집계 처리 한다. 일반적으로 총계 처리하는 기본방식에서 많이 쓰이는 값으로 세세한 정보보다는 전체 통계정보가 필요한 경우 많이 사용한다.

범주화의 랜덤 올림 방법(random rounding)과도 방식이 유사하여 같은 의미로 사용하기도 한다.

 

재배열(Rearrangement)

- 기존 정보값은 유지하면서 개인정보와 연관이 되지 않도록 해당 데이터를 재배열. , 개인의 정보가 타인의 정보와 뒤섞임으로서 전체 정보의 손상 없이 개인의 민감 정보가 해당 개인과 연결되지 않도록 하는 방법이다.

예를 들어, 여러 개인정보 중에서 나이, 소득 등의 특정 속성을 개인별로 서로 교환하여 재배치하게 되면 개인의 실제 나이와 소득과는 차이가 발생하는 비식별 자료를 얻게 되지만, 전체적인 통계적 분석 등에 있어서는 자료의 손실 없이 분석을 할 수 있는 장점이 있다.

 

3) 데이터 값 삭제(Data Reduction)

개인정보 식별이 가능한 특정 데이터 값을 삭제 처리 하는 기법

() 홍길동, 35, 서울 거주, 한국대 졸업 35, 서울 거주

() 주민등록번호 901206-1234567 90년대 생, 남자

() 개인과 관련된 날짜 정보(자격 취득일자, 합격일 등)는 연 단위로 처리

 

처리대상 식별정보 : 쉽게 개인을 식별할 수 있는 정보(이름, 전화번호, 주소, 생년월일, 사진 등), 고유식별정보(주민등록번호, 운전면허번호 등), 생체정보(지문, 홍채, DNA 정보 등), 기관단체 등의 이용자 계정(등록번호, 계좌번호, 이메일 주소 등)

장점 : 민감한 개인 식별 정보에 대하여 완전한 삭제 처리가 가능하여 예측, 추론 등이 어렵다.

단점 : 데이터 삭제로 인한 분석의 다양성, 분석 결과의 유효성, 분석정보의 신뢰성을 저하시킨다.

 

속성값 삭제(Reducing Variables)

- 원시 데이터에서 민감한 속성값 등 개인 식별 항목을 단순 제거하는 방법이다.

예를 들어, 주민번호, 나이, 성명이 나열되어 있는 경우 분석 목적에 따라 주민번호를 나이만으로도 대체 가능하다면 주민번호 속성값은 삭제, 이때, 남아 있는 정보 그 자체로도 분석의 유효성을 가져야 함과 동시에 개인을 식별할 수 없어야 하며 인터넷 등에 공개되어있는 정보 등과 결합하였을 경우에도 개인을 식별할 수 없어야 한다.

 

속성값 부분 삭제(Reducing Partial Variables)

- 민감한 속성값에 대하여 전체를 삭제하는 방식이 아닌 해당 속성의 일부값을 삭제함으로서 대표성을 가진 값으로 보이도록 하는 방법이다.

예를 들어, 상세 주소의 경우 부분 삭제를 통하여 대표지역으로 표현 가능(: 서울특별시 중구 무교동 77번지 서울시 중구)하며 이러한 경우 범주화(suppression)의 경우와 유사할 수 있으나 범주화 방법은 주로 수치데이터에 적용하는 경우가 일반적인데 반하여 속성값 부분 삭제는 수치데이터를 포함하여 텍스트 데이터 등에도 폭넓게 활용 가능하다.

 

데이터 행 삭제(Reducing Records)

- 타 정보와 비교하여 값이나 속성의 구별이 뚜렷하게 식별되는 정보 전체를 삭제, , 특정하게 민감한 속성값 하나가 아닌 해당 정보를 가진 개인의 내용 전체를 제거하는 방법이다.

예를 들어, 소득이 다른 사람에 비하여 뚜렷이 구별되는 값을 가진 정보는 해당 개인정보 전체를 삭제한다.

이 방법은 통계분석에 있어서 전체 평균에 비하여 오차범위를 벗어나는 자료를 제거할 때에도 사용 가능하다.

식별자 제거를 통한 단순 익명화(Trivial Anonymization)

- 단순 익명화 방법은 식별자뿐만 아니라 잠재적으로 개인을 식별할 수 있는 준식별자를 모두 제거함으로서 프라이버시 침해 위험을 줄이는 방법이다.

예를 들어, 연예인정치인 등의 가족 정보(관계정보), 판례 및 보도 등에 따라 공개되어 있는 사건과 관련되어 있음을 알 수 있는 정보 등 잠재적 식별자를 사전에 제거함으로서 연관성 있는 정보의 식별 및 결합을 예방한다.

개인정보 유출 가능성을 최대한 줄일 수 있지만 데이터 활용에 필요한 정보까지 사전에 모두 없어지기 때문에 데이터의 유용성이 낮아지는 문제가 발생할 수 있다.

 

4) 범주화(Data Suppression)

단일 식별 정보를 해당 그룹의 대푯값으로 변환(범주화)하거나 구간값으로 변환(범위화)하여 고유 정보 추적 및 식별 방지 하는 기법

() 홍길동, 35홍씨, 30-40

 

처리대상 식별정보 : 쉽게 개인을 식별할 수 있는 정보(주소, 생년월일 등), 고유식별정보(주민등록번호, 운전면허번호 등), 기관단체 등의 이용자 계정(등록번호, 계좌번호)

장점 : 범주나 범위는 통계형 데이터 형식이므로 다양한 분석 및 가공이 가능하다.

단점 : 범주, 범위로 표현됨에 따라 정확한 수치 값에 따른 분석, 특정한 분석 결과 도출이 어려우며, 데이터 범위 구간이 좁혀질 경우 추적, 예측이 가능하다.

 

범주화(Data Suppression) 기본방식

- 은폐화 방법이라고도 하며 명확한 값을 숨기기 위하여 데이터의 평균 또는 범주의 값으로 변환하는 방식이다.

, 데이터의 평균이나 범주로 전체를 표현할 경우 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보 공개는 그 집단에 속한 개인의 정보를 공개하는 것과 마찬가지의 결과가 나타나므로 이 경우는 비식별화 처리로 볼 수 없다.

 

랜덤 라운딩(Random Rounding)

- 개인 식별 정보에 대한 수치데이터를 임의의 수 기준으로 올림(round up) 또는 내림(round down)하는 기법으로서 민감성이 높은 정보에 대하여 대푯값(범주화)으로 처리하는 방식이다.

예를 들어, 나이, 우편번호 등과 같은 수치 정보로 주어진 식별자는 일의 자리, 십의 자리 등 뒷자리 수를 숨기고 앞자리 수만 나타내는 방법(나이 : 42, 45, 49, 43, 42 40 혹은 40대로 대푯값 표현)이다.

 

범위 방법(Data Range)

- 개인 식별 정보에 대한 수치데이터를 임의의 수 기준의 범위(range)로 설정하는 기법으로서 해당 값의 분포(범위, 구간)로 표현한다.

예를 들어, 소득의 경우 3,300만원은 3,000만원~4,000만원으로 대체 표기

 

제어 라운딩(Controlled Rounding)

- 랜덤 라운딩 방법에서 어떠한 특정 속성값을 변경시킬 때 행과 열의 합이 일치하지 않는 단점을 해결하기 위해 행과 열이 맞지 않는 것을 제어하여 일치시키는 기법이다. 그러나 컴퓨터 프로그램으로 구현하기 어렵고, 복잡한 통계표에는 적용하기 어려우며 해결할 수 있는 방법이 존재하지 않을 수 있어 아직 현장에서는 잘 사용하지 않는 방법이다.

 

5) 데이터 마스킹(Data Masking)

개인 식별 정보에 대하여 전체 또는 부분적으로 대체값(공백, *, 노이즈 등)으로 변환 하는 기법

() 홍길동, 35, 서울 거주, 한국대 재학 ○○, 35, 서울 거주, ○○대학 재학

 

처리대상 식별정보 : 쉽게 개인을 식별할 수 있는 정보(이름, 전화번호, 주소, 생년월일, 사진 등), 고유식별정보(주민등록번호, 운전면허번호 등), 기간단체 등의 이용자 계정(등록번호, 계좌번호, 이메일 주소 등)

장점 : 완전 비식별화가 가능하며 원시 데이터의 구조에 대한 변형이 적다.

단점 : 과도한 마스킹 적용 시 필요한 정보로 활용하기 어려우며, 마스킹의 수준이 낮을 경우 특정한 값의 추적 예측이 가능해진다.

 

임의 잡음 추가(Adding Random Noise)

- 소득과 같은 민감 개인 식별 항목에 대해 임의의 숫자 등의 잡음 추가(더하거나 곱)하여 식별정보 노출을 방지하는 기법이다.

예를 들어, 생년월일의 경우 실제 생년월일(DoB)에 사전에 정의한 6개월의 잡음을 추가한다고 한다면 원래의 생년월일 데이터에 1일부터 최대 6개월의 날짜가 추가되어 기존의 자료와 오차를 가질 수 있게 적용한다.

 

공백(blank)과 대체(impute) 방법

- 빅데이터 자료로부터 비식별 대상 데이터를 선택한 후, 선택된 항목을 공백으로 바꾼 후에 대체법(inputation)을 적용하여 공백부분을 채우는 기법이다공백 이외에도 특수문자(*, _ 등이나 전각 기호)로 처리하는 경우가 많다.


다음에는 이어서 국∘내외 개인정보 비식별화 도구에 어떤 것들이 있는지 게시하도록 하겠다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/03   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함