법령 빅데이터와 인공지능 2부

현재 인텔리콘 메타  연구소에서는 법령 빅데이터에 대한 연구를 진행하고 있다.
이에 현재 진행중인 연구에 대해 대략적인 방향을 소개해 보고자 한다.

hands-460872_640

3. 법령정보의 특징

3.1. 디지털화 된 데이터

국내에서는 1985년부터 현행법령을 디지털로 변환하여 PC 통신망 등을 통해 제공하기 시작했고 1998년부터는 인터넷 서비스를 제공하고 있다. 즉 공공 데이터로서 법령정보를 통합 구축하고 행정기관, 민간기업 및 일반인에게 무료 보급하여 활용하도록 하여 언제 어디서나 법령정보를 보다 쉽게 검색하고 활용할 수 있도록 국가차원에서 서비스하고 있는 것이다.

이렇데 디지털화된 법령정보는 국가법령정보센터를 통하여 Open API 형태로 일반에 제공하고 지속적으로 업데이트하여 있어 법령정보 분석을 위한 기초 데이터 수집이 용이한 측면이 있다.

3.2. 포괄적이고 함축적이고 집합어를 사용하는 법령형 문장

법령정보는 하나의 법률에 수천 건의 판례가 존재할 수 있기 때문에 법령내용은 전체적으로 항상 일관성을 유지하기 위해 집합어 등을 사용하거나 법령문장을 포괄적으로 기술할 수밖에 없다. 예를 들어 시골 땅이나 논, 밭, 산 등으로 법령을 검색한 경우 해당되는 법령을 찾을 수가 없는데 법령에서는 대부분 “농지”, “임야”라는 집합어를 많이 사용하고 있기 때문이다.

이러한 이유로 법령 정보가 너무 전문적이라 일반인이 이해하기 힘들다는 단점이 있기는 하지만, 같은 이유로 텍스트 마이닝 등 법령 정보 자체에 대한 분석에는 장점이 있다.

3.3. 계층적 구조를 가진 복잡한 법령 체계

생활 분야별로 나뉘어진 특정 법령을 전부 이해하고 적용하기 위해서는 법률부터 시행령이나 시행규칙, 중앙행정기관의 훈령/예규/고시, 지방자치단체의 조례/규칙까지의 법령을 검색하고 이해할 수 있어야 한다.

법령정보는 법률에서 대략적인 내용을 기술하고 상세한 내용은 대통령령, 총리령/부령 등 하위법령에서 기술하도록 되어 있다는 특징을 가지고 있기 때문이다. 즉, 상하위법으로 가지가 뻗어 있는 법령들을 체계적으로 이해해야만 한다.

법률 등 상위법에서는 법령의 근간을 이루는 목적, 용어, 추진조직의 구성, 실행 주체, 대략적인 절차, 벌칙, 시행일에 관한 사항 등을 기술하고 있으며, 하위법령에서는 상위법에서 위임한 내용, 즉 법령을 집행하기 위한 세부적인 조건이나 절차 등을 기술하고 있는 경우가 많다.

3.4. 다수의 법령에 산재되어 기술된 생활분야별 법령내용

특정한 생활분야와 관련된 법령내용이 여러 법령에서 분산되어 기술되어 있는 점도 법령정보의 특징이다. 현재 우리나라의 법체계는 법령 공급자인 행정주체, 즉 소관부처의 업무 프로세스를 중심으로 이루어져 있는데 다양한 입법목적에 따라 동일한 대상을 여러 측면에서 동시에 규율하는 복잡한 법령체계가 구축된 것이다.

이와 같은 문제점을 해결하기 위해 우리나라에서는 “찾기쉬운 생활법령정보” 서비스 같은 수요자 중심의 생활법령정보 서비스를 제공하고 있다. 하지만 생활법령 콘텐츠는 수작업으로 제작되고 있어 전체 법령분야로 확대하기 위해서는 많은 인력과 예산과 수년간의 작업이 필요하다.

더욱 중요한 문제는 대한민국 법령만 하더라도 전체 법령의 50% 이상이 제/개정되고 있기 때문에 기존에 제작한 콘텐츠를 지속적으로 업데이트해 주어야 하는데 생활법령 콘텐츠 양이 증가할수록 업데이트가 점점 어려워 콘텐츠 확장이 용이하지 않다는 것이다.

 

technology-662833_1280

 

4. 현행 법령정보 서비스 한계 및 개선점

4.1. 키워드 매칭에 의한 검색 결과

키워드 검색은 사용자의 검색 의도와는 관계없이 질의어와 매칭되는 정보를 무조건 제공하기 때문에 질의어와 관련된 검색 결과가 너무 많거나, 검색결과가 전혀 나타나지 않는 경우도 발생하기도 하고, 사용자가 원하지 않는 정보를 제공하는 등 인터넷 정보에 대한 검색의 효율성 측면에서 많은 단점을 가지고 있다. 이는 사용자가 입력한 질의어의 의미를 무시하고 단순하게 문서에서 일치하는 텍스트(단어, 어구 혹은 문장)를 포함되어 있는지 여부를 기준으로 검색결과를 제공하기 때문이다.

이로 인해 사용자의 의도와 검색패턴 등을 정확하게 파악하여 검색결과를 제공하지 못하고 있으며 정보의 위치, 정보와 정보 사이의 관계인식 등 정보의 취합 및 분류 등은 여전히 수작업에 의존하는 경우가 많다.

본 연구에서는 이러한 한계점을 극복하기 위해 단순히 키워드와 매칭되는 단어수가 많다는 것에 초점을 맞추어 검색 결과는 출력하는 것이 아니라, 각각의 법령정보가 갖고 있는 링크 관계, 즉, 관련 법령, 관련 판례 간의 관계에 따른 가중치를 부여하도록 한다. 또한, 사용자의 검색 패턴에 따라 각각의 데이터에 메타데이터를 생성함으로써 사용자의 의도 및 법령 정보의 구조에 따른 검색 결과가 나타나도록 하고 있다.

code-459070_1280

4.2. 데이터 가공에 있어서의 한계

이전의 연구에 있어서 “전자문서 기반 법률콘텐츠 구조화 -온라인 행정심판에의 활용-(배유진, 2014)”에서는 법령정보의 정형적 표준화, 유형적 세분화, 구조적 체계화의 방법론으로 데이터를 구조화 하고자하는 연구가 있었다. 이 연구에서는 법률 시스템에 있어서 작성되는 하나하나의 전자문서의 정보를 시스템화 함으로써 법령 정보를 구조화하고자 했다.

하지만, 연구의 대상이 양식화된 전자문서에 국한되어 있어 문장화되어 있는 법률 및 판례에 적용하는데는 어려움이 있다. 법률 및 판례에 있어서는 각각의 형태소를 분석하고 유의미한 단어와 무의미한 단어를 분리하는 작업이 선행되어야 한다. 예를 들어 판례에 있어서 피고, 원고, 사건 등의 단어는 법령 정보의 특성상 불필요한 단어로 분류되어야 한다. 즉, 법령 정보는 그 전문분야만의 텍스트 마이닝 작업이 필요하다.

4.3. 법령정보에 대한 부가정보 서비스의 한계

현재의 시스템들은 디지털 정보를 단순히 송/수신하여 사용자에게 제공하는 기능을 수행할 뿐이다. 다시 말하면 전달된 디지털 정보는 수신한 사용자 측에서 해석하고 가공해서 활용하여야 한다. 즉 이러한 정보들을 유통하는 시스템은 법령정보의 내용을 이해하거나 분류/가공하고 처리하지 못하는 한계점을 가지고 있다.

본 연구에 있어서의 부가적인 서비스는 검색어에 대한 사용자들의 의도를 분석하여 각각의 법령 정보를 그룹핑하고 분류하므로서 새로운 정보를 만들어 간다는데 있다. 즉, 각각의 사용자들의 검색 패턴을 통하여 법령 정보의 구조를 점차 세분화하고 정확도를 높이는 알고리즘을 개발하여 각각의 법령 정보의 묶음을 의미 있는 정보로 만들고자 한다.

 

오픈_ICT(2)

 

5. 소결

위의 내용을 요약하자면 다음과 같다.

  • 법령 정보는 법령 정보에 쓰이는 용어적 특성이 있다.
  • 법령 정보는 그 전문적 영역에 대한 텍스트 마이닝이 필요하다.
  • 법령 정보 검색 시스템에서의 키워드 매칭 시스템은 단순히 매칭 단어의 수뿐만 아니라 정보에 대한 추가적인 가중치가 필요하다.
  • 법령 정보의 구조화 작업은 사용자의 검색 패턴을 검색시스템에 피드백함으로서 지속적인 개선이 가능하다.

 

참고 자료

  • 찾기쉬운 생활법령정보 전략 연구 최종보고서, 법제처, 2009
  • 생활용어 기반의 법령정보 시맨틱 방법론에 관한 연구, 정승택, 2011
  • 관련어 네트워크를 활용한 유의어 분석, 도재학, 강범모, 2012
  • 법률정보서비스 이용자의 정보 이용 태도에 관한 연구, 김민규, 2013
  • 전자문서 기반 법률콘텐츠 구조화 -온라인 행정심판에의 활용-, 배유진, 2014
  • 법령과 조례의 관계에 대한 연구, 양승미, 법학논고, Vol.14 No.3, 2010
  • 미국 법전의 편재방식과 법령정보의 검색 인용방법, 신영수, 법학논고, Vol.32, 677~708, 2010
  • [법령입안심사기준], [알기 쉬운 법령정비기준], [법제업무편람] (법제처, 2009~2011)
  • 시멘틱 검색 엔진 설계 및 구현, 허선영, 김은경, 한국정보과학회 학술발표논문집, vOL.35, No.1, 2008
  • 과학기술 분야 학술정보 서비스 대학 이용자의 정보요구 및 이용행태 차이 분석, 배경재, 한국문헌정보학외지, 45(1): 75-101, 2010
  • 법학전문도서관과 법률정보 서비스, 정긍식, 김나영, 국회도서관보, 46(8): 34-39, 2009
  • 전자정부 서비스에 대한 사용자 만족도 결정 요인에 관한 연구, 강동석, 성 균관대학교 대학원 박사학위 논문, 2009
  • 친족명사의 공기어 양상과 네트워크 분석, 정유진・강범모, 언어학19. No.2, 대한언어학회, 209-23, 2011
  • 사건명사의 공기어 네트워크 구성과 분석, 김혜영・이도길・강범모, , 언어와 언어학 50, 한국외국어대학교 외국어 종합연구센터 언어연구소, 81-106, 2011
  • 언어, 컴퓨터, 코퍼스 언어학(개정판), 강범모, 고려대학교 출판부, 2011
  • Beckner ,C. etal. (2009). “Language is a Complex Adaptive System; Position Paper.” Language Learning. Vol.59. UK: Blackwell Pub. pp.1-23.
  • Wright, N. L. (2008). Standing at the Gate: A New Librarian Wonders about the Future Role of the Profession in Legal Research Education. Legal Reference Services Quarterly, 27(4): 305-345

Related Posts