분석 개요

박근혜 정부와 문재인 정부의 정부문서 비교 분석

  • 단어 임베딩(Word2Vec) 방식으로 구현된 인공지능이 서치퍼트가 보유한 문서 빅데이터를 통해 스스로 학습

  • 인공지능은 사용자가 입력한 검색어와 관련된 단어들을 특정 기간(혹은 정부)에 따른 유사도를 기준으로 추천

분석 목적

인공지능을 이용한 검색어 추천

  • 임베딩 된 단어들 간의 유사도는 백터 간의 코사인 유사도로 측정 가능

  • 이 유사도가 가지는 의미는 단어의 대체 가능성으로 해석 가능

  • 예를 들어, “안전” 이라는 단어는 “안위” 라는 단어로 대체되어 사용될 수 있어 두 단어 간의 유사도는 높게 측정함

  • 사용자가 단어를 입력하면 인공지능이 중앙정부 문서를 기준으로 관련된 단어를 알려줌

분석 데이터

  • 이번 분석에는 대한민국 정부에서 발행하고 있는 공공문서의 전부 혹은 일부를 사용

  • 이번에 공개하는 공공문서빅데이터 분석은 이전정부(박근혜 대통령 정부) 초기에 2년 반동안 발행한 중앙정부 문서(감사원부터 환경부까지)와 현 정부(문재인 대통령 정부) 초기부터 2년 반 동안 발행한 중앙정부 문서를 사용

  • 그 양은 각각 약 240만, 264만 페이지에 달함

분석결과

<“공정성” 단어 분석 결과>

<“인공지능” 단어 분석 결과>

<“미국” 단어 분석 결과>

정부문서 비교 분석 페이지 바로가기

분석방법론

  • 한 문장 안에서 근처에 위치한 단어는 비슷한 주제를 가진다고 가정하고 대체 가능한 단어를 탐색

  • 인공지능은 기준 단어를 잡고 주변 단어를 예측하며 이를 학습

  • 기준 단어를 잡고 주변 단어를 예측하며 이를 학습

  • T.Mikolov의 논문 “Efficient Estimation of Word Representations in Vector Space” 을 시작으로 개발된 단어 임베딩 기술을 사용

  • 이 기술은 가장 널리 사용되는 단어 임베딩 (컴퓨터가 이해할 수 있는 방식으로 단어를 표현하는 방법) 즉, 주변 단어들을 기반으로 가운데 출현하는 단어의 확률을 추측하는 방식을 일컫는다. 단어의 문법 및 의미적 내용이 벡터 형태로 저장

  • 사람은 인공지능 학습에 간섭하지 않고, 대용량의 문장 데이터를 입력으로 사용하여 기계가 자동으로 학습

서치퍼트인공지능연구소

  • 서치퍼트 인공지능 연구소에서는 인공지능 기술을 활용하여 검색 기능 및 편의성 향상에 중점
  • 사용자가 입력한 검색 키워드와 유사한 키워드를 추천하는 증강검색, 검색 키워드를 통한 검색 과정을 안내하는 내비게이션 검색 서비스를 통해 검색의 성능 및 편의성을 증대시키는 연구를 진행
  • 문서 간의 유사도 분석을 통해 사용자가 관심을 가지는 문서와 유사성이 높은 문서를 자동으로 검색하고 추천하는 서비스와 관련된 연구도 준비 중

연구소장 : 박 준 

E-mail: jun.park@searchpert.com  Tel:02-3474-8959 

  • 2002년~ 현재 홍익대학교 컴퓨터공학과 교수

  • 2001~2001년 Rockwell Science Center Post-doctoral Researcher

  • 2000년 USC Computer Science PhD

  • 1996년 USC Computer Science MS

  • 1993년 서울대학교 계산통계학과 졸업