• >
  • 스타랩과제
  • >    데이터 공학 연구실
데이터 공학 연구실
IoT 환경을 위한 고성능 플래시 메모리 스토리지 기반
인메모리 분산 DBMS 연구개발
연세대학교 / 총괄책임자 : 박상현 / http://delab.yonsei.ac.kr
과제 소개
- IoT (Internet of Things) 환경의 연결된 장치는 작지만 방대한 양의 데이터를 동시다발적으로 생성한다. 그러나 기존 Hadoop 기반 시스템은 대용량 일괄처리 작업에 최적화 되어 있기 때문에 많은 양의 작은 데이터로 구성된 입력을 처리하는 데 한계가 있다.
- 본 연구실에서는 오픈소스 프로젝트를 활용하여, 위와 같은 환경에 최적화된 DBMS를 구현하고자 한다.
- 본 연구실은 플래시 메모리 저장 장치와 메모리를 기반으로 한 분산 DBMS인 "ADDB (Analytic Distributed DBMS)"를 개발하고자 하며, 고성능을 유지하면서도 플래시 메모리 스토리지의 비싼 가격과 수명 문제를 극복해 기업 환경에 도입 가능한 제품을 개발하는 것을 목표로 한다.
인사말
안녕하세요. 연세대학교 컴퓨터과학과 데이터공학연구실 홈페이지를 방문하신 것을 진심으로 환영합니다. 연세대학교 데이터공학 연구실은 지금까지 10명의 박사와 30여명의 석사를 배출하였으며, 현재 2명의 박사과정, 3명의 통합과정, 5명의 석사과정 학생이 활발히 연구를 수행하고 있습니다. 우리 연구실에서는 다량으로 생산되는 IoT 데이터를 저장 및 분석하기 위해 플래시 메모리 저장 장치 기반 인메모리 분산 DBMS 개발 연구에 전념하고 있습니다. 분산 DBMS 개발 연구 외에도, 생물체로부터 얻어진 데이터로부터 유용한 지식을 얻어내기 위한 생명현상 연구와 머신러닝과 딥러닝 기법을 활용하여 기계가 사람의 언어를 이해할 수 있는 자연어 처리 연구를 진행하고 있습니다. 다양한 연구 활동을 통해 연구원들의 잠재력이 발휘 될 수 있도록 독려하며, 각 연구분야를 융합한 새로운 의미를 연구 결과물을 도출하여 사회에 이바지 하고자 합니다.
연락처
총괄책임자 연구실 전화 : 02) 2123-5714
총괄책임자 메일주소 : sanghyun@yonsei.ac.kr
실무책임자 연구실 전화 : 02) 2123-7757
실무책임자 메일주소 : cwk1412@yonsei.ac.kr
찾아오는길
(03722) 서울특별시 서대문구 연세로 50(신촌동) 제 4공학관 D714 데이터공학 연구실
지하철 이용시
- 2호선 신촌역 하차 -> 2번 또는 3번 출구 ->도보 10분
버스 이용시(연세대 앞 하차)
- 간선 : 153, 163, 171, 272, 470, 601, 672, 673, 700, 707, 710, 750A, 750B, 751
- 지선 : 6714, 7737
- 광역 : 9714, M6724, M7106, M7111, M7119
- 공항 : 6011
- 일반 : 567, 73
- 좌석 : 770, 800
- 직행 : 1000, 1100, 1200, 1900, 2000, 2000-1
총괄책임자
지도교수 : 박상현 / 전화번호: 02-2123-5714 / Email : sanghyun@yonsei.ac.kr
박상현 교수는 현재 연세대학교 컴퓨터과학과에 재직중이며, 데이터 공학 연구실을 운영하고 있다. 주요 연구 분야는 빅데이터 플랫폼, 데이터베이스 시스템, 바이오인포매틱스, 기계학습이다. 서울대학교에서 석사 학위, University of California Los Angeles에서 박사 학위를 취득하였다. VLDB, ICDE, CIKM, TKDE, TOC 등의 데이터베이스 분야의 권위 있는 국제 학술 대회 및 학술지에 논문을 출판하였다. ICDE, CIKM, DASFAA 등 다수의 국제 학술대회의 프로그램 위원으로 활동한 경력이 있으며, 현재 한국정보과학회 데이터베이스 분야 편집위원장 및 한국연구재단 ICT 융합 연구단의 전문위원으로 활동하고 있다.
구성원
성명 학위 연구 분야 이메일 주소
최원기 통합과정 Database System, Flash Memory, Non-Volatile Memory cwk1412@yonsei.ac.kr
하지환 박사과정 Database System, Bioinformatics, Machine Learning jihwanha@yonsei.ac.kr
신승연 통합과정 Bioinformatics, Machine Learning yeoni@yonsei.ac.kr
박진욱 석사과정 Machine Learning, Deep Learning, Natural Language Processing parkju536@yonsei.ac.kr
성한승 석사과정 Database System, Key-Value Store, Indexing hssung@yonsei.ac.kr
조민수 석사과정 Machine Learning , Deep Learning, Natural Language Processing minsoo0104@yonsei.ac.kr
이지환 통합과정 Database System, Key-Value Store, Non-Volatile Memory ji_hwan43@yonsei.ac.kr
이신의 통합과정 Bioinformatics, Machine Learning lsnfamily02@yonsei.ac.kr
김도영 석사과정 Database System, In-Memory Key-Value Store kem2182@yonsei.ac.kr
박찬희 석사과정 Machine Learning, Deep Learning, Natural Language Processing channy_12@yonsei.ac.kr
연구목표
본 연구는 엑사 스케일의 작은 크기의 데이터를 저장하고, 이러한 데이터에 대해 초당 기가 스케일 수준으로 트랜잭션을 수행할 수 있는 플래시 메모리 스토리지에 기반한 인메모리 분산 DBMS을 개발하고자 한다.
IoT 환경에서 생성되는 데이터는 보통 그 크기가 수 바이트에 불과한 매우 작은 크기지만, 짧은 시간동안 대량의 데이터가 동시다발적으로 생성되기 때문에 데이터를 빠르게 처리하기 위한 요구가 발생하고 있다. 엑사 스케일의 데이터를 적재하면서도 이러한 데이터를 초당 기가 스케일 수준으로 처리할 수 있는 분석 시스템이 필요하다.
내용
인메모리 데이터 그리드 같은 경우, 모든 데이터를 메모리에 적재한만큼 성능은 매우 빠르지만, 가격대비 용량면에서 비효율적이며 대용량 데이터를 적재하고 유지하기엔 부족하다. 분산 파일 시스템인 하둡의 HDFS 경우, HDD에 최적화된 형태로 가격 대비 용량 면에서 이점이 있으나 IoT 환경의 데이터 유형에 대해서는 불필요하게 많은 데이터를 추가로 읽어야 하기 때문에 성능이 느린 단점이 있다.
NoSQL 데이터베이스의 경우, SQL 질의처리 엔진없이 키-값 모델을 적용 직접 데이터에 액세스 하면서 성능을 높인 형태의 솔루션이다. 그러나 NoSQL 데이터베이스 역시 데이터의 persistency를 보장하기 위해 디스크에 데이터를 저장하게 되면 HDD의 경우에 I/O에 성능이 제한되는 것을 피할 수 없고, SSD와 같은 빠른 스토리지를 쓰더라도 용량 대비 비싼 가격, 제한된 수명문제에 봉착해 실제 서버 환경에 도입 시 유지 비용을 감당하기가 어렵다. 또한 이중화 등 고가용성 특성들이 단순한 형태로 되어있어 대용량 데이터 처리에 어려움이 있다. 또한 SQL은 여전히 가장 보편적인 분석 언어이고, 대부분의 기업 환경에서 분석에 SQL을 사용하고 있다. 이를 위해 분산 질의처리 엔진을 NoSQL에 연동하게 되면 질의처리 엔진에서 사용 가능하도록 키-값 모델을 관계형 모델로 변환해야 하는데 이 과정에서 메모리 사용량이 급증하고, 부가적인 I/O가 발생하게 되는 비효율적인 문제가 있다.
하단의 연구의 핵심 기술을 활용하여 선행기술들이 가진 문제를 해결하는 고성능 분산 DBMS를 개발하고자 하며 이를 공개 소프트웨어화 하여, 외부 참여를 독려하고 기능성 및 성능 개선을 도출 하고자 한다.
성과 (2017년 4월 ~ 2018년 8월 현재)
연구성과
해외 학술대회
- Jaehyung Kim, Jinuk Park, Sanghyun Park, “Machine Learning based Performance Modeling of Flash SSDs”, (Short paper) Proceedings of 26th ACM International Conference on Information and Knowledge Management, Singapore, Singapore, November, 2017.
- Jaehyung Kim, Jinuk Park, Sanghyun Park, “Neural Network for Saturation Prediction of Solid State Disks”, Proceedings of IEEE International Conference on Systems, Man, and Cybernetics, Banff, Canada, October, 2017.
- Kyungtae Song, Jaehyung Kim, Doogie Lee, and Sanghyun Park, “MultiPath MultiGet: An Optimized Multiget Method Leveraging SSD Internal Parallelism”, Proceedings of the 7th International Conference on Emerging Databases, Busan, Korea, August, 2017.
국내 학술대회
- 박찬희, 박상현, "소설 데이터 기반 한국어 자연어 생성", 한국정보과학회 한국컴퓨터종합학술대회, 2018.
- 김도영, 박상현, "비휘발성 메모리를 이용하여 데이터 영속성을 유지한 인 메모리 키-값 데이터베이스", 한국정보과학회 한국컴퓨터종합학술대회, 2018 [우수논문으로 선정]
- 조민수, 최원기, 박상현, "RocksDB에서 SST파일에 따른 WAF감소에 관한 연구", 한국정보처리학회 추계학술대회, 2017 [우수논문으로 선정]
- 이지환, 이두기, 최원기, 박상현, "RocksDB Tiered storage를 이용한 성능 비교", 한국데이터베이스학회(KDBC), 2017
- 최원기, 박상현, "인메모리 키-값 데이터베이스의 데이터 보존성을 위한 부하에 따른 디바이스 활용", 한국데이터베이스학회(KDBC), 2017
해외 특허
- Sanghyun Park, Jaehyung Kim, Jinuk Park, "Apparatus Detecting I/O Data Saturation and Method thereof", PCT/KR2017/013846, Applied, 2017
국내 특허
- 박상현, 송경태, 김재형, "플래시 저장장치의 내부 병렬성을 이용하는 키 값 기반의 데이터 액세스 장치 및 방법", 10-2018-0016169, Applied, 2018
- 박상현, 김재형, 박진욱, "데이터 입출력 포화 검출 장치 및 방법", 10-2017-0155271, Applied, 2017
공개SW내용
Spark-ADDB Connector
- Spark-ADDB Connector
ADDB
- ADDB는 스타랩 메인 프로젝트로서, 유저가 입력한 질의에 대하여 키-값 형태의 데이터로 저장하는 플래시 메모리 스토리지 기반 인메모리 분산 DBMS
Commit 횟수
Spark-ADDB Connector
ADDB
공개SW 등록 커뮤니티 사이트
졸업생 취업현황 및 졸업생 배출인력 우수사례
스타랩 과제를 통해 2017년과 2018년 상반기에 걸쳐 2명의 박사와 2명의 석사를 배출
- 고성능 분산 DBMS 연구를 진행했던 김재형 연구원(박사, 대기업(SK텔레콤) 취업 후 대용량 데이터 레이크 운영을 위한 플랫폼 구축 연구 수행
- 분산 DBMS의 성능 분석 및 최적화를 진행했던 김정우 연구원(박사, 스타트업(디셈버앤컴패니) 취업)과 강화학습을 활용한 주식 정보 분석 엔진 구축 연구 수행
- 분산 DBMS의 데이터 복구 동작 연구를 진행했던 진민화 연구원(석사, 중견기업(쿠팡) 취업)은 취업 후 클라우드 기반의 대용량 분산 환경 서비스에서 로그 수집 성능 최적화에 관한 연구 수행
- 분산 DBMS의 성능 분석 및 최적화를 진행했던 황소희 연구원(석사, 대기업(SK C&C) 취업)은 취업 후 딥러닝을 활용한 통신 데이터 이상 탐지 및 분석에 대한 연구 수행