• >
  • 스타랩과제
  • >    데이타베이스 및 마이닝 연구실
데이타베이스 및 마이닝 연구실
대화 가능하고 자동으로 튜닝하는 DBMS의 개발
포항공대 / 총괄책임자 : 한욱신 / http://wshan.net
과제 소개
일반 사용자가 데이터베이스 관리 시스템(DBMS)을 사용하기 위해서는, 해당 사용자가 데이터베이스의 구조인 스키마와 질의 언어인 SQL을 능숙하게 다룰 수 있어야 한다. 그러나 일반 대중들은 SQL 언어에 대해 알지 못하며, 컴퓨터 전공자일지라도 자신의 의도를 정확히 반 영한 질의를 작성하는 것은 쉽지 않다. 또한, 기존 DBMS의 사용자는 SQL 질의를 제대로 작성하였는지 스스로 확인하기 어렵다. 사용자가 SQL 질의를 정확히 작성하더라도, DBMS가 반환하는 결과가 없을 경우 에 사용자는 본인이 SQL 질의를 정확히 작성하였는지 확신할 수 없을 것이다.
한편, DBMS의 튜닝은 질의 처리 성능에 큰 영향을 미치는 중요한 작업이며 이는 DBMS에 대한 고도의 지식을 요구하기 때문에, 전문가인 데이터베이스 관리자 (DBA)를 필요로 한다. 그러나 DBA의 급여가 높기 때문에 규모가 작은 회사에서는 DBA를 고용하는 것이 현실적으로 어려우며, DBMS의 구조가 복잡해짐에 따라 DBA에게 조차도 튜닝은 어렵고 지루한 일이 되고 있다.
본 과제에서 개발하고자 하는 지능형 DBMS는 앞서 언급한 두 가지 문제를 효과적으로 해결한다. 지능형 DBMS는 DBMS에 대한 깊은 지식이 없고 SQL을 모르는 사용자도 쉽게 접근할 수 있는 자연어 인터페이스를 제공한다. 또한 비전문가도 쉽게 DBMS를 튜닝할 수 있어, DBA 고용이 부담스러운 개인이나 중소기업도 적은 비용으로 활용할 수 있다.
인사말
POSTECH 데이터베이스 및 데이터 마이닝 연구실에 오신 것을 환영합니다. 우리 연구실에서는 빅 데이터, 데이터베이스, 마이닝 및 AI 관련 연구에 집중하여 SIGMOD, VLDB 등의 권위 있는 최상위 데이터베이스 학술대회와 KDD 등의 최우수 데이터 마이닝 학술대회에 지속적으로 논문을 게재하고 있습니다. 우리 연구실의 연구 목표는 빅 데이터를 효과적이고 효율적으로 처리할 수 있는 확장 가능하고 지능적인 빅 데이터 시스템을 구축하는 것입니다. 빅 데이터의 대부분은 구조화되지 않은 데이터이므로 처리하기가 어렵습니다. 우리 연구실에서는 구조화되지 않은 데이터를 그래프 형식의 반 구조화 된 데이터로 변환하여 병렬 그래프 엔진에서 쉽게 처리 할 수 있는 시스템을 구축하고 있습니다. 또한 인간과 상호 작용할 수 있는 지능형 시스템을 구축하고 있습니다. 현재 진행 중인 연구 주제는 다음과 같습니다.

- 대용량 데이터 분석을 위한 마이크로 레벨 (멀티 코어 / GPU) 및 매크로 레벨 (클라우드) 의 병렬 연산 시스템
- 대규모 그래프 연산 시스템 (소셜 네트워크, 뇌 네트워크, 화학 화합물 처리)
- 구조화 된 데이터와 다크 데이터를 위한 지능형 데이터베이스 관리 시스템 (데이터베이스 + 자연어 처리)
- 블록 체인과 같은 분산 컴퓨팅 인프라
연락처
전화 : 054) 279-8871
메일주소 : wshan@postech.ac.kr
찾아오는길
경상북도 포항시 남구 청암로 77
고속버스
- 경유지정보 : 서울, 대전, 마산, 광주 방면에서 고속버스 이용 → 포항도착
- 고속버스 이용 및 예약문의 : 1588-6900 ( http://www.kobus.co.kr )
- 교통편 : 택시이용시 20분 소요
시외버스
- 경유지정보 : 대구, 경북, 강원, 부산, 경남, 전남, 경기, 충청지역 시외버스 이용 → 포항도착
- 시외버스 이용 및 예약문의 : 1666-2313 ( http://www.포항터미날.kr )
- 교통편 : 택시 이용시 15분 소요
자가
- 서울 출발시
1. 경부고속도로 → 대구 → 포항고속도로 → 포항IC → 이동도로 → 이동사거리 → 신단지교차로 → POSTECH → C5
2. 경부고속도로 → 대구 → 포항고속도로 → 포항IC → 경주방향 → 유금IC → 유강터널 → POSTECH → C5
- 대구 출발시
1. 대구 → 포항고속도로 → 포항IC → 이동도로 → 이동사거리 → 신단지교차로 → POSTECH → C5
2. 대구 → 포항고속도로 → 포항IC → 경주방향 → 유금IC → 유강터널 → POSTECH → C5
- 부산 출발시 : 경부고속도로 → 경주IC → 포항방향 → 유강터널→ POSTECH → C5
총괄책임자
  • 한욱신 교수
  • jeon-im IT gonghaggwa jeon-im gyosu
    pohang gong-gwa daehaggyo keompyuteo gonghaggwa
  • 데이터베이스&데이터 마이닝 연구실
  • (054)-279-8871
  • Email: wshan@postech.ac.kr
  • Homepage: http://wshan.net
한욱신 교수는 POSTECH 창의IT융합공학과/컴퓨터공학과에 재직 중이며, POSTECH 데이터베이스 및 데이터마이닝 연구실을 이끌고 있다. 경북대학교 및 한국과학기술원에서 학사, 석사, 박사를 받았으며, IBM Almaden Research Center에서 포스트닥을 하였다. 주 연구 분야는 빅 데이터 및 데이터베이스이며, 특히 그래프 데이터 처리 엔진에 관한 세계적인 수준의 연구를 수행하고 있다. 데이터베이스 및 마이닝 분야의 최우수 학술대회와 저널인 SIGMOD, VLDB, KDD, ICDE, WWW, IEEE TKDE, VLDB Journal에 다수의 논문을 게재하였으며, SIGMOD에 한국 과학자 중에 최다의 논문인 총 12편의 논문을 게재하고 있다. 또한 데이터베이스 분야 최우수 기업인 미국의 Oracle사의 외부기관 연구프로그램의 수혜자 5년 연속 선정되고(2014-), 삼성미래기술육성센터의 소프트웨어 분야 최초로 연구 책임자 (2014-2018)로 선정되었으며 우수한 결과로 인하여 후속 연구 책임자(2018-2011)로 선정되는 등 주요 연구 결과들이 산업계에서 필요한 실용적 연구로서 그 우수성을 인정 받고 있다. 더불어 빅 데이터 분석 기술이 학계 및 산업계에 미친 높은 영향력을 인정 받아 2016. 8월에 과학정보통신기술부(구 미래창조과학부)로부터 이달의 과학자 상을 수상한 바 있다. 한 교수는 ICDE 2015의 Industrial PC chair를 역임하였으며, SIGMOD, VLDB, ICDE, KDD, WWW 등의 최우수 국제 학술대회 조직 위원 및 프로그램 위원으로 꾸준히 활동하고 있으며, 데이터마이닝 분야 최고 귄위 저널인 IEEE TKDE의 부편집장을 역임하였으며, 데이터베이스 분야 최고 권위 저널인 VLDB Journal과 SCI 정보처리 분야 상위 4.5% 저널인 Information Sciences 의 부편집장으로 학계 발전을 위해 봉사하고 있다.
구성원
이정훈, 연구교수
- Dept. of Creative IT Engineering, POSTECH
- jhlee@dblab.postech.ac.kr
김현지, 석박사통합과정
- Dept. of Creative IT Engineering, POSTECH
- hjkim@dblab.postech.ac.kr
서 인, 석박사통합과정
- Dept. of Creative IT Engineering, POSTECH
- iseo@dblab.postech.ac.kr
소병훈, 석박사통합과정
- Dept. of Computer Science and Engineering, POSTECH
- bhso@dblab.postech.ac.kr
이유경, 석박사통합과정
- Dept. of Creative IT Engineering, POSTECH
- yklee@dblab.postech.ac.kr
홍기재 , 석박사통합과정
- Dept. of Computer Science and Engineering, POSTECH
- kjhong@dblab.postech.ac.kr
박연수, 석박사통합과정
- Dept. of Computer Science and Engineering, POSTECH
- yspark@dblab.postech.ac.kr
조정호, 석박사통합과정
- Dept. of Creative IT Engineering, POSTECH
- jhcho@dblab.postech.ac.kr
강혁규, 학사과정
- Dept. of Computer Science and Engineering, POSTECH
- hkkang@dblab.postech.ac.kr
나인혁, 학사과정 (참여 예정)
- Dept. of Creative IT Engineering, POSTECH
- ina@dblab.postech.ac.kr
연구목표
본 연구는 데이터베이스에 대해 전문 지식이 없는 일반 사용자가 대화하고 튜닝 할 수 있는 지능형 DBMS를 개발하는 것을 목표로 한다. 개발하고자 하는 지능형 DBMS는 자연어로 질의 및 대화가 가능하고, 질의 결과를 효과적으로 요약하여 시각화하며, 일반 사용자도 쉽게 튜닝 가능하다.
본 과제를 통하여 고난도의 시스템 소프트웨어 개발 능력을 보유한 석사급 20명, 박사급 11명의 인재를 양성하며, 18편의 국 내외 특허를 등록한다. 또한 최우수 국제학술대회에 총 7편의 논문을 게 재한다. 더불어 소프트웨어 공개를 통해, DBMS를 활용하는 국내 산업 전반의 생산성 향상에 기여한다.
내용
개발하고자 하는 지능형 DBMS는 크게 대화 매니저(dialogue manager), 질의 번역기(query translator), 성능 분석기(performance analyzer), 응답 엔진(answering engine)의 네 가지 모듈로 구성된다.
대화 매니저는 대화 상태(dialogue state)를 유지하여 사용자의 자연어 질의를 새로운 질의, 연 속 대화형 질의, 성능 분석에 대한 질의의 세 가지 유형으로 분류한다. 사용자의 질의가 새로운 질의일 경우, 질의 번역기는 딥 러닝 기술 기반 모델을 이용하여 자연어 질의를 SQL 질의로 변환한다. 사용자의 질의가 연속 대화형 질의인 경우, 연속 대화형 질의 번역기(subsequent query translator)는 이전에 입력된 SQL 질 의와 자연어 질의를 이용하여 새로운 SQL 질의를 생성한다. 사용자의 질의가 성능 분석에 대한 질의일 경우, 성능 분석기는 질의를 번역하여 성능 분석 대상 질의, 성능 척도 등의 정보를 얻고, 이를 이용하여 성능 문제의 원인을 파악하며 해결 방안을 예측한다. 마지막으로 응답 엔진은 질의 번역기가 번역한 SQL 질의와 성능 분석기의 분석 결과를 입력으로 받아 사용자 질의의 처리 결과와 이를 시각화한 자료, 그리고 결과에 대한 자연어 설명을 생성하여 사용자에게 반환한다.
성과
2018년 신규 선정된 과제로 수행 중
- 프로그램 등록 3건
- 국내 특허 출원 2건
공개SW 저장소
5개의 저장소 중 2개만 공개, 3개는 논문 제출 후 공개 예정
- 자연 언어를 사용한 데이터베이스 질의 처리 최신 기술인 ATHENA의 구현 (공개)
https://github.com/postech-db-lab-starlab/ATHENA
- 자연 언어 질의 처리를 위한 대용량 학습 데이터 수집용 웹 크롤러 (공개)
https://github.com/postech-db-lab-starlab/Web-Crawler-for-NL2SQL
- Lexical-Syntactic-Semantic (LSS) 유사도 분석 기술 기반의 텍스트 데이터에서의 의미적으로 대응되는 자연어-SQL 의 매핑 방법 (비공개)
https://github.com/hjkim-postechdblab/LSS-Similarity
- 테스트 데이터 생성 및 질의 재작성 기술 기반의 SQL 간의 의미적 동치성 판별을 위한 다중 레벨 프레임워크 (비공개)
https://github.com/hjkim-postechdblab/SQL-Semantic-Equivalence
- 자연 언어를 사용한 복잡한 데이터베이스 질의 처리 기술 (비공개)
https://github.com/hjkim-postechdblab/Relational-Agent