• >
  • 스타랩과제
  • >    빅데이터 및 인공지능 플랫폼 연구실
빅데이터 및 인공지능 플랫폼 연구실
Nemo(네모): 차세대 빅데이터 분석 시스템
서울대학교 / 교수 : 전병곤 / E-mail : bgchun@snu.ac.kr
과제 소개
아파치 오픈소스 선정: 본 과제 Nemo는 세계 6대륙, 6,000명의 최고의 개발자들이 참여하는 350여개 아파치 오픈소스 프로젝트 중 1개로 선정되었으며 구글, 마이크로소프트 등 세계 최고 기업 핵심 빅데이터 전문가들을 멘토로 확보
세계 최고 기술을 앞선 우수한 성능: Nemo는 다양한 데이터센터 자원환경 및 워크로드 특징에 최적화된 수행 방식을 통해 기존 세계 최고의 빅데이터 분석 시스템 아파치 Spark 대비 향상된 성능을 확보
국제 최상위 컴퓨터시스템 학회/학술지 논문 게재: 본 과제를 통해 OSDI, EuroSys, ACM Transactions on Computer Systems 등 국제 최상위 컴퓨터시스템 학회 및 학술지에 논문 게재
인사말
서울대학교 소프트웨어 플랫폼 연구실 주관 ‘[SW 스타랩] 빅데이터 및 인공지능 플랫폼 연구실’은 컴퓨터 시스템 (특히 빅데이터 및 머신러닝 시스템) 분야의 연구를 활발히 하여, 세계 최고 수준의 시스템 소프트웨어를 연구/개발하고, 오픈소스화하여 시스템 분야 발전에 꾸준히 기여하고 있습니다.
연락처
전화 02) 880-1611
찾아오는길
서울특별시 관악구 관악로 1 서울대학교 302동 420호
총괄책임자
서울대학교 전병곤 교수 / Email : bgchun@snu.ac.kr
전병곤 교수는 현재 서울대학교 컴퓨터공학부에 재직 중이며, 주요 연구 분야는 데이터 처리와 머신러닝 시스템이다. 서울대학교 전자공학과에서 학사, 석사 학위를 취득하였고, 스탠포드 대학교 컴퓨터과학부에서 석사 학위를 취득하였으며, 캘리포니아 주립대 버클리 대학교 컴퓨터과학부에서 박사 학위를 취득하였다. 페이스북에 방문 AI 연구원이었으며, 서울대에 합류하기 전에는 Microsoft의 수석 연구원이었다. 그 외에도 Yahoo! 연구소, Intel 연구소, 국제 컴퓨터 과학 연구소에서 근무하였다. 그는 SOSP, OSDI, SIGMOD, VLDB, NSDI, SIGCOMM, EuroSys, ATC, FAST, NIPS 및 MobiSys와 같은 권위 있는 학외에 논문을 제출하였고, Google Scholar에 의하면 1만 회 이상 논문이 인용되었다. 현재는 사용자 친화적인 딥러닝 프레임 워크 개발과 새로운 유연한 데이터 처리 시스템인 Apache Nemo의 개발에 힘쓰고 있다. 또한 .NET과 Java를 모두 지원하는 재사용 가능한 대용량 데이터 처리 라이브러리인 Apache REEF의 Vice President를 맡고 있다. SOSP Best Paper Award(2009)를 수상했으면 스마트 폰 보안 연구(TaintDroid)가 Communications of the ACM 2014의 "Research Highlights" 섹션에 등재되었다. 2018 AWS Machine Learning Research Award, 2017 Facebook Caffe2 Research Award, 2017 Amazon Credit Research Credits for Research Award, 2015 Naver Young Faculty Award 및 2014 Microsoft Research Faculty Fellowship을 수상하였다.
구성원
성명 학위 연구 분야 이메일 주소
정은지 박사과정 머신러닝 데이터분석 egjung49@gmail.com
어정윤 박사과정 배치 데이터분석 jeongyoon0807@gmail.com
엄태건 박사과정 스트림 데이터분석 taegeonum@gmail.com
양영석 박사과정 배치 데이터분석 johnyangk@gmail.com
이윤성 박사과정 머신러닝 데이터 분석 yunseong.lee0@gmail.com
이우연 박사과정 머신러닝 데이터 분석 wylee.xyzi@gmail.com
이계원 박사과정 스트림 데이터 분석 strayyyyyy@gmail.com
서장호 석사과정 배치 데이터분석 jangho@jangho.kr
송원욱 석사과정 배치 데이터분석 wsong0512@gmail.com
이산하 석사과정 배치 데이터분석 sanhaleehana@gmail.com
김수정 석사과정 머신러닝 데이터 분석 epik03sj@gmail.com
연구목표
다양한 빅데이터 분석을 고속화하여 처리하는 단일화된 빅데이터 스택 (단일화된 런타임과 빅데이터 처리 엔진 기술)을 연구 개발하여 현재 가장 빠른 스파크 기반 스택 대비 성능 향상으로 세계 최고의 빅데이터 스택을 만든다. 연구를 통해 아파치 오픈 소스 프로젝트를 만들고 국제 산학계를 선도하는 기술을 확보한다.
내용
세계 최고 기술을 앞선 우수한 성능
기존의 빅데이터 분석 시스템 중 세계 최고의 기술을 보유한 아파치 스파크(Apache Spark)의 경우 빅데이터 분석 작업을 데이터 관리, 하드웨어 자원 활용, 데이터센터 스케일의 수행환경 등 분석 작업 별로 다양한 요구사항에 맞게 최적화할 수 있는 유연성 및 확장성을 지원하지 않는다. 한편, 본 과제에서 개발한 Nemo는 상위 레벨에서 구글 클라우드와 호환되는 아파치 빔(Apache Beam) 또는 현업에서 빅데이터 분석에 활발히 쓰이는 스파크 언어로 개발된 데이터 분석 애플리케이션을 중간 형태(IR, Intermediate Representation)로 표현한 후 이 중간 형태를 자유롭게 최적화할 수 있도록 한다. 또한 하위 레벨에서는 이러한 최적화를 지원함과 동시에 단일화된 데이터 관리, 효율적인 하드웨어 자원 활용 및 데이터센터 스케일에서 새롭게 대두되는 수행 환경에 대한 손쉬운 지원을 통하여 고성능, 고효율을 성취한다. 이를 통해 다양한 데이터센터 자원환경 및 워크로드 특징에 최적화된 수행 방식을 맞춤 설정함으로써 Nemo는 스파크 대비 월등히 향상된 성능을 보인다.
아파치 오픈소스 프로젝트
아파치 소프트웨어 재단은 2018년 2월 Nemo를 인큐베이팅 프로젝트로 채택했다. 빅데이터 핵심 플랫폼 기술로서 아파치 오픈소스 프로젝트로 인정받은 것은 Nemo가 국내 최초이다. 아파치 소프트웨어 재단은 현재 소프트웨어 산업에서 가장 영향력 있는 비영리 법인이다. 현재 350개 이상의 오픈소스 프로젝트가 아파치 소프트웨어 재단에 속해 있으며, 아파치 Hadoop, 아파치 Spark 등 빅데이터 분석과 인공지능 분야의 가장 성공적이고 대중적인 오픈소스 소프트웨어 역시 아파치 소프트웨어 재단에서 개발되고 있다. 아파치 소프트웨어 재단은 이러한 품질 좋은 오픈소스 소프트웨어를 개발하기 위해 세계 최고 수준의 연구자 및 개발자들이 협업하는 기반을 제공하며, 구글, 마이크로소프트, 아마존 웹 서비스 등 해당 분야 유수의 기업들에서도 아파치 소프트웨어 재단의 프로젝트에 활발하게 참여하고 있다. 인큐베이팅 프로젝트의 채택 기준은 기존의 솔루션이 다루지 못하는 문제를 해결한 혁신성과 소프트웨어로서의 품질 수준, 오픈소스 프로젝트로서의 성장 전망 등으로, 국내 프로젝트 중 이러한 까다로운 검증 과정을 거쳐 세계적 오픈소스 프로젝트로 인큐베이팅된 사례는 매우 드물다.
연구성과
구분 논문 수 비고
국외학술지 1 국제 최상위 학술지 ACM Transactions on Computer Systems 1편
국외학술대회 4 국제 최상위 학술대회 OSDI 1편, EuroSys 2편
국내학술대회 8 -
공개SW내용
아파치 오픈소스 프로젝트 선정
본 과제 Nemo는 세계 6대륙, 6,000명의 최고의 개발자들이 참여하는 350여개 아파치 오픈소스 프로젝트 중 1개로 선정되었다. (2018년 2월 최종승인) 총괄책임자 전병곤은 아파치 재단 최고 등급 맴버(Member)로 선출되었다.
공개SW 등록 커뮤티니 사이트
Apache Nemo 공식 홈페이지 : https://nemo.apache.org
졸업생 취업현황
사업년도 이름 학위 취업 기관명
2015 최서윤 석사 SAP
2016 김태훈 석사 SAP
2017 김주연 석사 삼성
공개SW기술 활용
세계 최고 빅데이터 전문가들과 협력
Nemo 프로젝트는 본 연구과제 소속인 국내 연구진 주도로 초기 개발이 이루어졌고, 세계 최고 빅데이터 전문가들과의 협력을 통해 개발 및 발전하였다. Nemo 프로젝트에는 아파치 소프트웨어 재단 멤버(Member)인 구글, 마이크로소프트, 데이터브릭스, 등 세계 유수의 기업 소속의 빅데이터 전문가들이 멘토로 참여하고 있다.
산업계 대표적 빅데이터 프로젝트들과 상호호환
첫째, Nemo는 산업계 대표적 데이터 분석 프로그래밍 언어들을 지원한다. Nemo는 상위 레벨에서 구글 클라우드와 호환되는 Apache Beam 또는 현업에서 빅데이터 분석에 활발히 쓰이는 Apache Spark 언어로 개발된 데이터 분석 애플리케이션의 최적화 및 분산 실행을 지원한다. 둘째, Nemo는 산업계에서 대표적으로 쓰이는 클러스터 관리자와 호환된다. Apache REEF를 통해 Apache Hadoop YARN 및 Apache Mesos 클러스터 관리자 환경에서 효율적으로 데이터 분석을 실행한다.