상세 컨텐츠

본문 제목

구글 보관 사용자 데이터의 시각화 방안

swuforce/web

by ユンジ 2023. 1. 3. 21:00

본문

https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE09329583 

 

구글 보관 사용자 데이터의 시각화 방안 | DBpia

김현우, 이상진 | 디지털포렌식연구 | 2019.12

www.dbpia.co.kr

 

요약

각종 스마트기기의 등장과 사람들이 사용하는 디바이스가 증가함에 따라 디지털 환경이 변화하고 포렌식에 대한 인식 확대, 안티 포렌식 기법의 발전으로 수사기관에서 전자정보를 확보하고 분석하는 것이 어려워졌다. 한편 IT 기업들이 사업을 확장함에 따라 수집하는 사용자 데이터가 광범위해졌는데 그 중 특히 구글은 다양한 플랫폼을 통해 수사에 활용할 수 있는 데이터들을 수집하고있다. 그러나 구글에서 획득한 데이터는 사람이 인식할 수 없거나양이 많기 때문에 적절한 가공 없이는 수사에 활용하는 데 한계가 있다. 이에 위치 정보, 어플리케이션 사용 내역, 검색 기록 등 구글에서 보관하고 있는 다양한 데이터들로부터 수사에 활용할 수 있는 유의미한 정보를 추출하기 위한 시각화 방안을 제시하고자 한다.

 

구글에서 보관하는 사용자 데이터 시각화의 의의

구글에서 보관하는 사용자 데이터로 안드로이드 기기 정보, 크롬 브라우저 사용 정보, 구글 검색 기록, 유튜브 사용 내역 등 다양한 종류가 있다. 위의 사진은 구글 계정 대시보드에서 확인한 사용자 데이터 중 일부인데 각종 구글 서비스와 관련된 사용자 정보가 저장된 것을 확인할 수 있다.

 

또한 구글에서는 위와 같은 사용자 데이터를 json, csv, html 등다양한 파일 형태로 추출해 주는 Takeout 서비스를 제공하고 있기 때문에 이를 비교적 쉽게 획득하여 수사에 활용할 수 있다. 구글 Takeout은 구글 제품들을 사용할 때 저장된 사용자 데이터들을 사용자들이 별도로 보관하거나 다른 서비스로 이용하기를 원할 때 간편히 다운로드할 수 있도록 만들어진 서비스로 저장된 데이터 중 원하는 데이터들만 선별하여 획득 가능하다.

 

다만 획득한 사용자 데이터가 모두 직관적으로 저장이 되는 것은 아니기에 유의미한 정보를 추출하는 것은 쉽지 않다. 데이터를 가공하여 목적에 맞게 의미를 도출해 유의미한 정보를 얻어내는 것이 매우 중요하다. 따라서 시각화 방법론을 제시하는 것은 의미가 있다.

 

 

연구 방법

이 논문에서는 시각화를 위한 개발 환경으로 Python 3.7.1(Anaconda 4.7.5)을 이용하였으며 주된 라이브러리로는 데이터 처리를 위한 Numpy와 Pandas 지도 데이터 표현을 위한 Folium 그래프 시각화를 위한 Matplotlib 문자열 빈도를 표현하기 위한 Word Cloud를 사용했다. 시각화 대상은 직접 수집한 구글 사용자 데이터이다.

 

 

[표 1]에 식별하기 어려운 정보지만 수사에는 활용도가 높은 데이터들을 선별해 두었다.

 

 

시각화 방안

 

1) 위치 정보를 이용한 시공간 데이터 시각화

  • 특정 장소 방문 확인을 위한 시각화
  • 일정 기간 위치 이동 변화 시각화
  • 예상 이동 경로 시각화
  • 주된 활동 지역 확인 시각화
  • 범죄 현장에 근접한 타임라인 시각화

구글 위치정보는 “Takeout\위치 기록” 경로에 “위치 기록.json”이라는 JSON(Javascript Object Notation) 형태로 저장된다.

개별 위치정보에는 “timestampMS”, “latitudeE7”, “longitudeE7”, “accuracy”, “activity” 등 키가 있는데 각 키의 의미는 [표 2]와 같다.

 

위 데이터 중 실제 사용자가 특정 시간에 있었던 위치를 확인하기 위해서는 시간, 위도, 경도 이 세 가지 데이터를 추출할 필요가 있다. 이를 위해 [그림 7]과 같은 소스코드를 이용해 JSON 파일로 저장되어 있는 위치 기록 정보를 가공했다.

 

 

위치 기록은 특정 시간에 대상자의 위치를 알 수 있다는 점에서 유용하다. 

 

 

2) 어플리케이션 사용 내역을 이용한 행동 패턴 시각화

  • 어플리케이션 사용 내역 통계
  • 특정 어플리케이션을 사용한 타임라인
  • 어플리케이션 사용 내역을 이용한 생활 패턴 시각화

어플리케이션 사용 내역은 “Takeout\내 활동\Android” 경로에 “내활동.html”이라는 HTML 형태로 저장되어 있다. 이를 브라우저로 확인하면 [그림 15]와 같이 사용한 어플리케이션 이름, 사용 일시를 확인할 수 있다.

 

 

어플리케이션 활동내역은 특별한 변환을 거치지 않더라도 데이터를 사용할 수 있으나 사용자가 하루에 사용하는 어플리케이션이 여러가지인 것을 고려한다면 효율적인 시각화 방안이 필요하다.

 

 

3) 검색 내역 시각화

 

검색내역은 “Takeout\내 활동\검색” 경로에 “내활동.html”이라는HTML 형태로 저장되어 있다. 이를 인터넷 브라우저로 확인하면 [그림 21]과 같이 검색어와 검색한 시간 등을 확인할 수있다.

 

 

대상자의 검색어가 양이 많은 경우 열람이 어렵고 불필요한 정보가 많아 필요한 정보를 찾기 어렵기 때문에 이를 간결하게 표현하는 것도 시각화의 한 방법이다. 검색 내역에서 필요한 정보는 시간과 검색어이므로 이 두 데이터만 추출하고 시간대를 실제 사용자의 시간대로 변환하면 [표 6]과 같이 훨씬 가시적으로 대상자의 검색어를 확인할 수 있다.

 

 

검색어는 대상자의 관심사나 심리 상태 등을 확인할 수 있는 유용한 수단이다. 포렌식에 대한 사회적 인식이 높아짐에 따라 수사 기관의 압수 수색에 대비하여 안티포렌식 도구를 이용하거나 저장된 데이터들을 완전 삭제하는 사례도 존재한다. 이때 검색 내역에서 '안티포렌식'이나 '완전 삭제'와 같은 검색어가 발견된다면 대상자의 증거 인멸을 입증할 수 있는 하나의 증거로 사용될 수 있을 것이다.

 

 

결론

시각화는 인간이 가지고 있는 인지 능력의 한계를 극복할 수 있는 좋은 수단으로 많은 정보를 한 눈에 볼 수 있게 하여 데이터의 의미를 이해할 수 있게 해 준다는 점과 흩어져 있는 여러 데이터들 사이의 상관 관계나 연관성을 보여 주고 이로 인해 통찰할 수 있는 중요한 단서를 제공한다는 점에서 그 의의가 있다.

관련글 더보기

댓글 영역