Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

정부 3.0 실현을 위한 플랫폼: 빅데이터와 도서관

No description
by

suntae kim

on 1 June 2015

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of 정부 3.0 실현을 위한 플랫폼: 빅데이터와 도서관

빅데이터와 도서관
이용자가 원하는 것!

사서의 새로운 역할

마음가짐...



2013. 10. 18

한국과학기술정보연구원
과학기술빅데이터연구실


Dr. 김선태 (stkim@kisti.re.kr)
빅데이터가 뭐지?

빅데이터의 특징
사서 = 데이터 과학자
정부 3.0 실현을 위한 플랫폼 :

빅데이터와 도서관
빅데이터가 뭐지?
BIG DATA



큰 데이터 ?

빙고 !!
에게! 뭐시여?
근데 왜들 난리지?
Big Data
[6]
[7]
[8]
[9]
[10]
[11]
image source:
[6] www.iskouk.org
[7] www.treehugger.com
[8] gatewayinsurance.ae
[9] beginnersinvest.about.com
[10] www.thepointdaily.com
[11] sticho.co.kr
[12] www.host1plus.com
[13] electronicsinourhands.blogspot.com
[14] metabetageek.com
[15] www.knocksteady.com
[16] nail-up.livejournal.com
[13]
[12]
[14]
고객이상행위 탐지
상품개발
국민복지,
재난대비, 보안
공공재 데이터 공개
상품성향조사
상품추천
오피니언 조사
솔루션 납품
서버판매
소프트웨어판매
Big Data 사업영역 선점
H/W
S/W

Network

E-Science
E-Research
Open Science
기술의 발전
연구환경 변화
3V :
V
olume
V
elocity
V
ariety

V
alue

어쨌든

Library와 Big Data ???

연구패러다임 변화
데이터 인식 변화
National
Asset

Preservation

re-use

DMP
Data Archiving
Data Publication
Data Access
Thesis Submission
Data Sharing
미국, 호주, 유럽연합

연구비 지원기관 (미국, 영국)

연구자(Nature)
Library
Funder
USER
Government
빅데이터
:
현재의 기술(H/W, S/W, 네트워크)로
처리하기 어려운 문제
Publishing Research Consortium (PRC 2010)
18,000개 저널 || 3823/51,000명 (7.5%)
데이터의 구분
http://www.cdlib.org/services/uc3/dmp/datatypes.html

- 관측 및 관찰데이터(Observational)
실시간 생성 / 재생산 어려움
Examples: Sensor readings, telemetry, survey results, images

- 실험데이터(Experimental)
연구실 장비에서 주로 생산 / 재생산 가능하나 비용이 고가일 수 있음
Examples: gene sequences, chromatograms, magnetic field readings

- 시뮬레이션데이터(Simulation)
실험 모델로 생산 / 모델과 메타데이터 등 입력 데이터가 결과데이터 보다 중요
Examples: climate models, economic models

- 추출 및 컴파일데이터(Derived or compiled)
재생산 가능하나 비용이 고가일 수 있음
Examples: text and data mining, compiled database, 3D models
Next Content


Role

Attitude

Library's :
Next Content
이용자들이 원하는 것은 뭐?
사서의 역할


그리고 마음가짐...
JISC는 지난 2007년부터 2009년까지

DISC-UK 데이터공유 프로젝트
수행

에든버러대학(Edinburgh), 옥스퍼드대학(Oxford), 사우스햄턴대학(Southampton)에
기관형 데이터 리포지터리(Institutional data repository)를 구축

기존 리포지터리가 데이터 리포지터리로 확장되는 원인 :

“연구자들이 그들의 데이터가 지속적으로 접근될 수 있도록, 연구비 지원기관의 요구에 직면하고 있음(Green et al. 2009, 3)”

데이터 관리, 데이터 공유, 데이터로의 장기적 접근에 대한 유용성을 기술하였으며, 특히
데이터 리포지터리를 구축하기 위한 도서관의 구체적인 활동을 제시
Cox & Pinfield (2013)
영국의 대학들을 대상으로
RDM과 관련된 현재의 동향 파악 및
미래의 우선 순위 조사

- Unof Northampton
- Oxford Brooked Univ.
- Univ. of East London

리포지터리 관리자 역할
- 연구비 지원기관에 대한 정책 응대
- 온라인 가이드 작성
- DMP 지원
- 타 서비스와 협력
- 연구데이터 범위 관련 조사 및 인터뷰
- 주제 전문 사서로의 기능 개발
ACRL Planning and Review Committee (2012)

고등교육기관의 도서관들에게
영향을 미치는 10대 트랜드 발표

-
도서관 가치 증명
- 데이터 큐레이션
- 디지털 보존
- 고등 교육
-
정보 기술
- 모바일 환경
- 이용자 주도의 전자책 수서
- 학술 커뮤니케이션
- 직원확보 및 배치
- 이용자 행태 및 기대
Michener et. al. (2012)

이용자 중심의 참여형 분석 4단계를 적용하여
DataONE 사이버 이프라스트럭처 플랫폼을 디자인

분석에 앞서
DataONE과 이해관계를 갖는 5개 커뮤니티를 도출

도서관과 사서를 2단계 이해관계 그룹 중 가장 중요한 이해관계 그룹으로 정의

그 이유 다음과 같다. [3, p7-8]
- 융합 과학(integrative science)은 데이터 중심이며, 정보에 의존적임
- 도출된 5개 이해관계 그룹내에서 서비스를 제공하고 있음
Abrams (2013)
시간과 공간의 제약없이 이용자가 원하는 콘텐트를 제공하는 고유의 임무 수행
학술연구 생명주기와 정보 생명주기의 접점에서 솔루션 제공
Tenopir et. al. (2012)
- Association of Research Libraries
(ARL) 소속기관

126개 도서관 사서들을 대상
으로 수행한 2012 설문조사 결과 발표. 223명/948명 설문 응답 내용 정리
-
ARL은 미국과 캐나다의 126개 연구 도서관을 회원기관으로 가지고 있음


- 이중
116개 도서관은 대학 도서관

- RDS와 관련된
응답자 중 ¾ 이상(78%)이 RDS 서비스를 위한 기술과 지식등을 갖추고 있다고 응답
하였음

- RDS 업무를 하게된 가장 큰 동기부여 하나는 무엇인가?
내 업무로 할당이 최고
- 다른 동기부여는? RDS에 대한 관심
- 현재 RDS 업무를 하고 있지 않다면, 가장 중요한 동기부여는 무엇이라 판단하는가?
연구자들의 요구, 업무 할당



Role (1/2)
Attitude
Role (2/2)
Data Scientists
[5, p27]

The information and computer scientists,
database and software engineers and programmers,
disciplinary experts, curators and expert annotators,
librarians
, archivists, and others,
who are crucial to the successful management of a digital data collection

데이터 과학자(Data Scientist)
[4]
데이터 과학과 관련된 분야를 전공하고 데이터 분석과 관련된 업무에 종사하는 사람을 말한다. 즉 데이터 과학자는 현장에 존재하는 대량의 데이터를 모으고, 분석에 적합한 형태로 가공하고, 데이터가 의미하는 바를 이야기(story)에 담아 다른 사람에게 효과적으로 전달하는 역할을 한다(O'Reilly Media, 2012).

데이터 과학자(Data Scientists)
[3]
Business analyst VS.
Data
analyst
Research
Scientist
Data Scientist
Experiences like my own suggest that the best way to become a data scientist
isn’t to
be trained as a data scientist, but
to
do serious, data-intensive work in some other discipline.
Data Scientist의 불편한 진실! WHY?
image source:
[1] www.vertex-us.com
[2] science-girl-thing.eu
[3] www.my-programming.com
[4] www.cmc.ca
[5] www.nylonmedia.co.kr
[6] www.2010.greatlakesthatcamp.org
[7] lookslikelibraryscience.com
[8] pauldorpat.com
database engineer [1]
software engineer [2]
programmer [3]
disciplinary expert [4]
curator [5]
expert annotator [6]
librarian [7]
archivist [8]
This is a Data Scientists Team !!!
Data
Curator
Data
Consultant
DMP
Consultant
Data
Publisher
IDR
Manager
Policy
Maker
Librarians' role as a data scientist
Government
Funder
[8]
POLICY
POLICY
[9]
영국의 연구비 지원기관들의 데이터 큐레이션 정책과 서비스 2012
미국의
연구비 지원 주요 기관 10개
22개 데이터 정책을 대상으로
데이터 정책의 구체적인 요구사항
도서관에 대한 시사점 도출

정책 내용은 DCC의 기준을 기초로 이를 재정의하고 확장한 18개의 기준을 이용하여 분석 (Dietrich et al. 2012)

아래 내용이 미국 연구커뮤니티에 반향을 일으켰다고 판단 함
NIH 2005, 2008년 (PubMed Central)
NSF 2010년 정책발표 (2011년 1월 17일 이후 제출되는 proposal에는 '데이터 관리 계획' 요청)

Agency-wide policies
Unit-specific policies
도서관과 사서의 역할을 강조 (데이터 관리와 정책수립과 관련하여)
조사대상인 9개 기관 모두, 정책의 적용 대상 콘텐트로서 연구기록물과 데이터를 모두 포함하고 있음
정책조항으로서 연구데이터와 연구기록물에 접근환경을 제시하기 위한 시간제한과 데이터 관리계획, 데이터 접근·공유 및 장기 보존, 모니터링이 있음
지원 기능으로는 가이드제시, 리포지터리, 데이터 센터, 데이터 관리 및 서비스 비용이 있음

Repository :
대부분의 연구비 지원기관은 출판물(publications) 리포지터리를 제공함
AHRC, EPSRC와 같은 기관은 리포지터리를 제공하지 않으며, 이 경우 연구자가 소속된 기관이나 주제별로 운영되는 리포지터리의 사용이 권고됨

Data Center :
ESRC, NERC 데이터 센터 서비스 제공

Costs :
BBSRC, EPSRC, ESRC, NERC의 경우, 지원해 주는 연구비에 데이터 관리, 공유를 위한 비용이 포함되어 있다고 공표하고 있음
source: SCIENCE. 2011 "Challenges and Oportunities" VOL 331. 692-693 [online]. [cited 2013.5.23]. http://www.sciencemag.org/content/331/6018/692
76.4% 한번이상 요청
48.7% 품질 OK
48.3% 1GB 미만
1TB 이상은 7.6%
50.2% 실험실
38.5% 대학인프라
56.0% 타 연구자
데이터 사용 X
겨우 8.8%만이
Curation 예산 만족
73.5%데이터 고급분석가 X
연구자 커뮤니티의 이슈
Community
EU 프로젝트 Parse.Insight 결과 (2009):

연구자 1,389명
응답자 중 91%의 연구자는 데이터의 재분석 가능성을 데이터 보존의 핵심 동인으로 생각
응답한 연구자 중 25% 연구자만 데이터를 공유
데이터 공유에 있어서, 법적 문제와 데이터의 오용(misuse)이 가장 큰 장애 요인

273명의 데이터 관리자
응답자 중 98%는 공적자금이 투입되어 생산된 연구결과는 공적 자산이라 인식
응답자 중 71%는 현재와 향후 5년 동안은 연구결과의 보존을 위한 예산이 이슈라고 판단

178명 출판 종사자
응답자 중 96%는 데이터 보존이 과학 발전에 도움이 된다고 응답
대형 출판사의 84%와 소형 출판사 55%는 데이터 보존을 위한 정책을 보유
전체 응답 출판사의 69%는 연구데이터 보존에 대해 준비되어 있지 않다고 응답
대형 출판사의 71%, 소형 출판사 57%가 연구자들로부터 논문과 데이터를 함께 받고 있음
대형 출판사들은 표준화, 아웃소싱, 에뮬레이션(emulation) 방법 등의 보존 전략을 가지고 있음
반면, 28%의 소형 출판사는 그러한 전략을 가지고 있지 않음
소형 출판사 73%, 대형 출판사 69%는 출판물에 대한 보존 책임이 출판사에 있다고 판단
연구데이터에 대한 보존 책임은 연구자에게 있다고 판단

KISTI 조사 결과 (2010):

KISTI (2010)에서는 국가과학기술지식정보서비스(NTIS)의 국가R&D참여인력 정보서비스 이용자 중 549명을 대상으로 조사를 실시

응답자 62%가 과학데이터를 보유
이 중 66%는 엑셀 등 개인이 관리, 30%는 데이터를 공유하지 않음

응답자 중 59%는 폐쇄된 커뮤니티 내에서 데이터를 공유하고자 함

전체 응답자 중 90%는 신뢰성있는 과학데이터가 제공될 경우 활용 의사가 있음
Tenopir et. al. (2011)
관측분야 1,329명의 연구자를 대상으로 데이터 공유에 관한 설문조사를 수행

연구데이터 공유에 대한 의견
-
81%가 데이터 공유를 찬성
-
79%
연구자가 센터 리포지터리에 자신의 데이터를
제출하고 공유하겠다고 응답
-
76%
연구자는 제공받은 데이터로
새로운 데이터세트를 생성할 수 있다고 응답

데이터를 공유하는데 있어 장애 요소
-
54% 연구자가 부족한 시간
- 40% 연구자는 예산 부족
- 24% 연구자는 데이터 제출처의 부재
- 20% 연구자는 표준의 부재

데이터 공유에 있어 전제되어야 하는 조건
-
95%는 데이터 제공자 및 연구비지원기관의 인용
- 81% 연구자는 데이터 공유를 통한 협력
- 72% 연구자는 상호간 데이터 공유 협약
- 70% 연구자는 공유된 데이터를 사용한 논문의 공유
여기서 잠깐만 !

과학데이터
연구데이터
정부3.0
개방, 공유, 소통, 협력
대학
도서관
공공
도서관
전문
도서관
서비스기획
데이터 조사
정부3.0
핵심가치

개방
.
공유
.
소통
.
협력
- 무엇을 개방할 것인가?
- 무엇이 필요한가?
- 칸막이 극복을 위한 소통
- 협력은 누구와?

Full transcript