법령 빅데이터와 인공지능 1부

현재 인텔리콘 메타 연구소에서는 법령 빅데이터에 대한 연구를 진행하고 있다.
이에 현재 진행중인 연구에 대해 대략적인 방향을 소개해 보고자 한다.

 

hammer-719065_1280

 

1. 서론

법이라는 카테고리는 검색적 측면에서 데이터 포화상태에 있는 빅데이터의 대표적인 케이스라 할 수 있다. 법령, 생활법령, 자치법규, 행정규칙, 판례 등 법령정보는 폭발적으로 증가해 1건의 법령문서라도 조, 항, 호, 목 등으로 나뉘어 경우에 따라 수십, 수백 건의 조와 항 등으로 구성될 정도로 방대한 범위를 가지고 있다. 이렇게 광범위한 법령문서 더미에서 정말 자신이 원하는 검색결과를 뽑아내기란 쉬운 일이 아니다. 또한 일상생활에서 사용하는 생활용어와 법률전문용어와 서로 상이하기 때문에 법률 용어에 익숙치 않은 사용자가 생활용어로 검색할 경우 원하는 법률검색 결과를 얻기 어렵다.

하지만, 법령 문서는 제한된 법령용어와 문법으로 이루어져 있기 때문에 정보로서 가공 및 분석하기가 일상 용어보다 더 용이할 수도 있다. 이에 연구에 대한 선행 연구를 조사하였으며 대략적으로 이를 소개하고자 한다.

“찾기쉬운 생활법령정보 전략 연구 최종보고서(법제처, 2009)에서는 법률정보 전문가가 아닌 일반인을 대상으로 한 법령 정보 서비스인 ‘찾기 쉬운 생활법령정보’ 서비스에 대한 보완책을 연구하였다. 이 연구에서는 법률 정보 이용자 집단을 아래와 같이 다섯 그룹으로 나누고 있다.

 

family-law-329569_1280

 

집단구분 속성 포함 그룹
전문가 이미 모든 법이 무엇인지 파악하고 있는 사람들 판사, 검사, 변호사 등
준전문가 자신이 필요로 하는 법이 무엇인지 알고 있으며,
일과 관련하여 자주 법에 접하는 사람들
기업의 고위 경영자, 중소 기업의 총 책임자,
M&A 전문가, 회계사 등
특정 분야에 종사하는 전문직
일반인 일반적인 고등 교육을 마친 사람들이지만,
법을 자주 접하지는 않고 또 어떤 법이 정확히 어떤 것인지
애매한 추상적인 생각밖에 가지고 있지 않는 사람들
대학 이상의 고등 교육을 받은 일반 회사원, 대학생 등
초보자 필요로 하는 법이 있으나, 그 법이 어떤 것인지,
관련 법규는 무엇인지 전혀 알지 못하여 찾아보는 것
또한 용이하지 않은 사람들
새로운 사업을 시작해 보려는 사람들
법 없이
사는
사람들
전혀 법이 필요하지 않거나 법을 알 필요가 없는
집단의 사람들 혹은 법을 필요로 하지만
검색할 수 있는 상황이 마련되지 않는 사람들
시골의 노인, 도시의 어린 학생들,
사회 생활을 딱히 하지 않는 사람들

<법 이용자 구분>

technology-512210_1280

법제처의 연구에서는 전문가 및 준전문가는 사기업의 법률 정보 서비스를 이용할 가능성이 많아 법제처 사이트의 이용자를 그 외의 일반 사용자를 대상으로 한 경향이 있었다. 하지만, 연구에서 언급하였듯이 전문가 및 준전문가를 제외한 일반인 그룹에서는 법률 정보 서비스 자체를 자주 이용하지는 않는다. 또한, 법령정보 검색을 위해 접속한 이용자의 66.5%가 대졸 이상이었고, 12.8%가 대학(원)생으로 나타나 법령정보 이용자 중 ‘일반인’으로 분류된 집단이 대부분 고학력을 소유한 것으로 나타났다.

본 연구에서는 일반인을 타겟으로 한 ‘찾기 쉬운 생활법령정보’와는 타겟을 달리 한다. 전문가와 준전문가 집단을 타겟으로 포함하며, 일반인 중 ‘생활법령정보’보다 깊이 있는 정보을 원하는 집단을 대상으로 한다. 여기에 포함되는 일반인은 일반적인 생활에서 일어나는 법적 문제들이 아닌 보다 심각한 법적 상황에 대하게 된 사람들을 의미한다. 이는 일반적인 생활 속에서 일어나는 법적 분쟁 등은 ‘찾기 쉬운 생활법령정보’에서 보여지는 카테고리화된 FAQ형식의 정보가 보다 효율적이기 때문이다. 따라서, 본 연구의 주 타겟층은 전문가와 준전문가와 일부 일반인 집단이라 할 수 있다.

“생활용어 기반의 법령정보 시맨틱 방법론에 관한 연구(정승택, 2011) ”에서는 법령 정보가 일반인이 수용하기에는 너무 전문적인 단어와 문법을 사용한다는 관점에서 접근하여 ‘찾기쉬운 생활법령정보’ 서비스와 관점을 같이 한다. 하지만, ‘찾기쉬운 생활법령정보’의 사례 중심의 접근방법과는 차이를 가진다. 즉, 법령정보에 대한 일반인의 접근이 수월하지 않다는 문제점을 해결하기 위해 수작업으로 콘텐츠를 재생산 하는 것이 아니라 시맨틱 검색 방법론을 제시하여 시스템 상에서 생활용어와 법령용어의 매칭시키는 것이 가능하도록 연구를 진행하였다. 본 연구에 있어서 이러한 발상이 많은 도움이 되기는 하였으나 접근 방법은 반대로 적용하였다. 법령용어와 일반용어 매칭하는 시스템 이전에 연구에서 언급하였듯 법령 정보에는 법령정보만의 문법이 존재하므로 일단 연구의 대상을 법률 용어로 한정하여 시스템을 연구하고 이후 일반 용어와의 상관성을 생각해 보고자 한다.

“관련어 네트워크를 활용한 유의어 분석(도재학, 강범모, 2012)” 법령 정보가 아닌 일반용어 책, 서적, 도서라는 세개의 단어를 중심으로 유의어 분석을 진행하였다. 본 연구의 대상인 법령 용어와는 다른 일반 용어이기는 하였으나 ‘포괄적’이고 ‘함축적’이고 ‘집합어’를 사용하는 특징을 가진 법령 용어를 언어적으로 구조화하는 알고리즘에 시사점을 제시했다.

선행 연구를 조사한 결과 법령정보를 빅데이터의 입장에서 구조화하고자 하는 연구는 많지 않아서 세분화된 전문 자료를 분석하게 된 경우가 많았다. 이제 본 연구에서는 광범위한 법률 빅데이터에 대해서 상대적으로 적은 텍스트 마이닝적 요소를 사용함으로써 법률 콘텐츠에 대한 딥러닝의 가능성을 연구해 보고자 한다.

electrician-499799_1280

2. 빅데이터로서의 법령정보

세계적인 컨설팅 기관인 맥킨지는 데이터의 규모에 초첨을 맞추어 빅데이터를 “기존 데이터 베이스 관리도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 데이터(맥킨지 2011년 6월)로 정의하였다. 또한, IDC에서는 업무 수행 방식에 초점을 맞추어 “다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처(IDC 2010년 4월)”라고 정의하였다.

또한. BI/DW 리서치 기관인 TDWI는크기(Volume), 속도(Velocity), 다양성(Variety)을 빅 데이터의 3대 요소(3V)로 뽑았으며, 이중 적어도 두가지에 포함되면 빅데이터로 분류했다.

현재 국가법령정보센터에서 검색할 수 있는 법령정보는 현행법령과 그 연혁 등 약 9.7만건, 훈령/예규/고시 등 중앙행정기관과 그 산하기관의 행정규칙 약 2.8만건, 지방자치단체의 조례/규칙 30.2만건, 판례 등 약 12.4만건, 법령 용어 약 6.7만건, 생활법령정보 등 기타 1.6만건 등 전체 약 63.4만건에 달하고 있고, 법령에서 추출한 별표/서식 약 58.4만건을 포함할 경우 121.8만건에 이른다.

법령정보는 별표, 서식, 법령용어 등을 제외하고 매년 약 2만 5천건씩 증가하고 있어 평균 6.2%의 증가율을 보이고 있으며, 지방자치가 점점 확대되고 있어 전체 법령정보의 양은 점점 크게 증가하고 있다.

법령정보의 이런 방대함은 약 6.7만건의 법령 용어를 생활용어와 매칭 시켰을때 더욱 두드러지게 되는데, 본 연구에서는 생활용어와 관련된 부분은 배제하고 법령 정보 그 자체의 빅데이터 성에 초점을 맞추었다.

 

빅데이터와-바이오융합

 

참고 자료

  • 찾기쉬운 생활법령정보 전략 연구 최종보고서, 법제처, 2009
  • 생활용어 기반의 법령정보 시맨틱 방법론에 관한 연구, 정승택, 2011
  • 관련어 네트워크를 활용한 유의어 분석, 도재학, 강범모, 2012
  • 법률정보서비스 이용자의 정보 이용 태도에 관한 연구, 김민규, 2013
  • 전자문서 기반 법률콘텐츠 구조화 -온라인 행정심판에의 활용-, 배유진, 2014
  • 법령과 조례의 관계에 대한 연구, 양승미, 법학논고, Vol.14 No.3, 2010
  • 미국 법전의 편재방식과 법령정보의 검색 인용방법, 신영수, 법학논고, Vol.32, 677~708, 2010
  • [법령입안심사기준], [알기 쉬운 법령정비기준], [법제업무편람] (법제처, 2009~2011)
  • 시멘틱 검색 엔진 설계 및 구현, 허선영, 김은경, 한국정보과학회 학술발표논문집, vOL.35, No.1, 2008
  • 과학기술 분야 학술정보 서비스 대학 이용자의 정보요구 및 이용행태 차이 분석, 배경재, 한국문헌정보학외지, 45(1): 75-101, 2010
  • 법학전문도서관과 법률정보 서비스, 정긍식, 김나영, 국회도서관보, 46(8): 34-39, 2009
  • 전자정부 서비스에 대한 사용자 만족도 결정 요인에 관한 연구, 강동석, 성 균관대학교 대학원 박사학위 논문, 2009
  • 친족명사의 공기어 양상과 네트워크 분석, 정유진・강범모, 언어학19. No.2, 대한언어학회, 209-23, 2011
  • 사건명사의 공기어 네트워크 구성과 분석, 김혜영・이도길・강범모, , 언어와 언어학 50, 한국외국어대학교 외국어 종합연구센터 언어연구소, 81-106, 2011
  • 언어, 컴퓨터, 코퍼스 언어학(개정판), 강범모, 고려대학교 출판부, 2011
  • Beckner ,C. etal. (2009). “Language is a Complex Adaptive System; Position Paper.” Language Learning. Vol.59. UK: Blackwell Pub. pp.1-23.
  • Wright, N. L. (2008). Standing at the Gate: A New Librarian Wonders about the Future Role of the Profession in Legal Research Education. Legal Reference Services Quarterly, 27(4): 305-345

Related Posts