빅데이터의 이해와 활용
Contents
01 제4차 산업혁명과 빅데이터의 이해 ------------ 4
02 빅데이터의 개념 및 정책 방향 ---------------- 16
03 국내의 공공데이터 추진동향 및 우수사례 ------ 29
04 빅데이터 분석 기획 및 활용방안 -------------- 37
05 공공기관의 빅데이터 분석사업 사례 발표 ------ 45
06 인공지능시대의 상상력코드 ------------------ 60
사례) 빅데이터로 보는 전라북도 ISSUE ---------- 66
01 제4차 산업혁명과 빅데이터의 이해
정 한 민 (한국과학기술정보연구원)
1. 4차 산업혁명과 빅데이터의 이해
1. Autonomous Machines - 무인장치
2. Al & Machine Learning – 기계학습의 발전(거의 모든 시스템에서 활용)
- 인공지능, 검색엔진, 광고, 마케팅, 주식, 로봇, 인사활동 등등 - microsoft, 구글, IBM의 각축
- 마이크로소프트 관리 구조 영향(1/4인 6,000여 명), 방향성 구상에 관한 아이디어
- 의료, 교육, 차량, 금융, 소매 등 주요 산업의 비즈니스들 모두와 관련된 문제
3. The 4th Industrial Revolution – 제4차 산업혁명
- 사물인터넷(lot), 로봇, 인공지능(Al), 빅 데이터 기술이 나노기술(NT), 바이오기술(BT),
정보기술(IT), 인지기술(CS)의 융합기술로 발전
→ 지능형 사이버 물리시스템이 생산을 주도하는 사회 구조로의 혁명
⇨ 지능화, 가상화, 초연결
※ 2020년 주요한 역량
①복잡한 문제 해결능력 ②비판적 사고력 ③창의력 ④사람관리 ⑤타인과의 조정력 ⑥감성지능
⑦판단과 의사 결정력 ⑧서비스지향성 ⑨협상력 인지적 유연성
4. Survival Strategy - 생존전략
◌ Foxconn Deploys 40,000 Robots in China
◌ 5G ⇒ 사물을 위한 것
◌ 휴대폰 – 4G ※ LTE – 4세대 통신규약
○ 제조업 – 고도화 – 효율화
◎ 누가하는 이야기를~ 이해하도록 - 센서 – 스마트폰
○ 기술은 항상 선택의 여지가 있다.
- 예산, 인력, 시간
- M to M – Machine(기계)
- 자동화 → 인공지능
- 각각 → 판단 ⇒ 명령
◌ 빅데이터 소유 – 글로벌기업, 정보원, 검찰 등
- 머신들의 수준
- 타임 바인딩
○ 제자에게 전수해주는 사람과 기계(인공지능)의 기간
■ 인간
– 인원 : 1 : 1 - 기간 : 5 ~ 10년 이상
■ 기계(인공지능)
– 인원 : 1: ∂ - 기간 : 몇 초
□ 인공지능 로봇트와 무사의 대결
- 로버트와 무사의 1,000번 자르기 대결 – 처음에는 비슷하나 800여번이
지나니 로봇이 우세 – 무사는 힘이 빠지나, 로봇은 충전만 해주면 됨
○ 사물들 인공지능 1조개 이상 존재
○ Volvo S90 2레벨 - Intellisafe & Autopilot
○ 2020년 →③④레벨 도입예정
- 운전대를 잡지(운전을 하지) 않는다.
○ 5레벨 운전자가 없다
※ 현재는 1,5~2레벨 수준
○ 인간 실수 사고 - 94%
- 미래에는 사고원인을 모르게 사고가 나고 운전자가 졸게 될 때 있다.
○ 창의적, 통찰력은 아직까지는 떨어진다.
○ 일반 자동차 ⇨ 자율 자동차
- 자동차 부품이 5,000개 → 1,500개로 획기적 감소
- 센서는 100개 → 300개 이상으로 증가
○ 자동차끼리 연락하여 서로 협조를 구하며 운행한다.
○ 공유경제 ↔ 기계. 알바 – 주인을 출퇴근 시키고 나머지 여유시간에 알바로
수입 창출
○ 운전자는 승객이 된다.
→ 해킹으로 음주사고, 졸음운전과 같은 사건이 발생할 수도 있다.
→ 미래에는 사고원인을 모르게 사고가 나고 운전자가 죽게 될 수도 있다.
○ Google DeepMind Challenge Match1(2016.9.3.) - 알파고와 이세돌과의 바둑경기
- 이세돌 9단 “신의 한수” - 위기에서 나온 창조적인 위대한 수
○ 4개월 만에 인공지능의 승리 ⇒ 빅데이터의 효과
→ 통째로 외워 – 대응
◎ 기자가 던진 질문
○ ~ 할 때 바로 유가를 우리가 볼 것으로 예상 아래로 외를 생각
⇒(해석) 언제 주가가 바닥을 칠 것이라고 생각하십니까?
↳ 인공지능의 해석
◎ 4차 사업 혁명
◎ IBM Watson 아주 훌륭한 기계 규모가 획기적으로 축소
↳ 인식 기간도 축소
○ 공무원 세계 – 인공지능 등의 도입으로 다른 직종으로 제교육해서 투입 될 것
○ Online – to – offline(o2o) Business
↳ 온라인과 오프라인의 결합 → 카카오- 택시기사를 승인
○ 온라인(현재) – 오프라인(옛날)
(지배관계)
○ 지멘스 공장 100명 – 늘지 않는다.
◌ Zero Marginal cost society 사회비용 제로화
- 인더스트리 4.0
- 전자부품 매출 1위 ◎각각의 사물 등에 인공지능이 늘어간다.
◌ CPS (Cyber-Physical Systems)
- 사이버시스템과 물리시스템이 통합된 시스템으로 통신 및 제어시스템이 물리세계의
사물과 융합된 형태
- 모든 사물이 서로 연결되어 정보를 교환하는 사물인터넷에서 컴퓨팅과 물리세계가
네트워킹을 통해 서로 유기적으로 융합되어 사물들이 소통하며 자동적 지능적으로
제어되어지는 시스템
- 기존 임베디드 시스템의 미래지향적이고 발전적인 형태로 에너지전력망, 교통시스템,
공공기초시설, 건강진료 등 매우 복잡한 핵심 인프라가 모두 CPS의 적용대상
◌ 일을 해서 보람을 느껴야 하는데 행복은 없다.
↳ Care 방향을 정해야 한다.
● 네이버 점유율 – 70% ~ 75%(우리나라) → 세계적으로는 3,600등
● 구글 – 전세계 70% 점유
지도의 90% 점유
※ 화재감지기에는 센서가 9개 들어있다.
◌ 해킹 → 항상 좋은 면만 있는 것은 아니다.
↳ 역효과(역반응)
◌ 아마존고 실시간 인식 : 스마트 폰을 찍고 들어가는 순간
(Amazon go) ↳ (스마트 사람 얼굴) 인식
◌ 암진단율
– IBM Watson 도입(90%이상) : 95% 수준 판독(월 2,000만원 정도 지불)
- 일반의사 – 45% 수준 판독
○ 자녀들을 여러 가지 경험을 할 수 있게 해야 한다.
※ 컨텐츠 문제 – 영어가 중요하지 않다.
02 빅데이터 개념 및 정책 방향
김 기 홍 (한국지역정보개발원)
◌ 국가, 해당 지자체의 행정적인 프로세스 과학과
- 국민, 해당 주민 ⇒ 편리하게 하기 위해
◌ 민간 ⇒ 돈 벌기 위해
○ 공공분야 데이터 (인식의 차이)
○ 실무분야
● 빅데이터 – 법‧규정은 없다. 상정은 되나 입법화가 안 되고 있다.
■ 개인(민간) - 이익창출
■ 공공분야 → 과학적인 의사결정을 하기 위해 필요
↳ 빅데이터 과제 도출과정이 굉장히 어렵다.
◎ 빅데이터의 주요활용
- 공약사항 수립
- 민원분석 현안문제
- 해결요구사항
03 국내외 공공 빅데이터 추진동향 및 우수사례
이 동 철 (한국정보화진흥원)
○ 국내는 행자부(2차)와 미래부(1차) 2개 부처에서 추진
○ 추진을 대부분 비공개로 하여 사례를 찾기가 어렵다.
○ 우리나라 생활안전지도 사용 못하고 있다. ⇨ 자제(집값하락으로 반대)
○ 금융위, 방통위 등 확대 추진, 주로 축제 분석
○ 공공쪽에서는 어떻게 가져가야할지? 가 고민이고, 6월이 지나면 활성활 예상
○ 지자체에서는 관광, 시내버스, 민원, CCTV 등에 이용
○ 정확한 정보인지 확인이 우선 필요하다.
○ 사례들을 표준모델로 만들어 등록하여 활용할 수 있도록 함
○ 시내버스가 타 교통수단과의 이용한계는 500m 정도
○ Data분석 전처리 과정이 제일 힘들다.
04 빅데이터 분석기획 및 활용방안
가 회 광 (행정자치부 공공정보정책과)
Ⅰ. 빅데이터 분석 기획 개요
빅데이터 분석 기획
1. 빅데이터 분석 기획이란?
○ 영상을 판독하여 숫자화 ⇒ 구체적 판독분석
- 기대효과를 두루 뭉실하게 표현 ⇒ 정확한 자료가 없기 때문
○ 맞춤형서비스, 숨은 니즈, 실시간 대응, 위험감소, 미래예측
⇒ 데이터를 분석하여 목표로만 결과를 상세한 이미지로 표현하는 것
○ 빅데이터 분석 순서
가치목표설정 ⇒ 문제인식 ⇒ 세부목표설정 ⇒ 데이터 검토 ⇒ 분석결과 활용
Ⅱ. 목표 수립
1. 목표 수립
※ 목표수립을 위해 검토해야할 5가지
중장기 비전은 무엇인가?
민원, 감사, 언론보도 등 외부에서 지속적으로 지적하는 내용은 무엇인가?
하계 및 관련 산업의 주된 관심분야는 무엇인가?
예산활용의 효율성, 업무 생산성향상을 위해 필요한 것은 무엇인가?
정책 집행 및 서비스 방식을 개선하기 위해 필요한 것은 무엇인가?
2. 목표구체화
※ SMART 원칙 활용
- Specific - 구체적
- Measurable - 측정가능
- Action oriented - 행동 지향적
- Realistic - 현실적인
- Time-based - 기간설정
Ⅲ. 문제인식
◎ 현재 우리의 문제는?
◌ 당면한 문제, 미래에 발생할 문제에 대한 안일한 태도는 정확한 문제를 발견 할 수 없다.
- 문제를 삼지 않으면 문제가 아니 될 수 있으나 문제를 삼으면 문제다.
◌ 강남역 침수 – 발생 근본적인 원인?
1. 배수처리시설 관리부족
2. 기상청 강수량 예측 실패
3. 조기 대응 부족
4. 국지성 집중호수
5. 안전 불감증
⇒ 주요원인 : 기후 변화에 따른 위기관리 부족
3. 베테랑의 감각
↳ 오랜 경험 감각 활용 – 분석의 정확도는 높아질 수 있음
Ⅳ. 과제발굴 및 선정
1. 과제발굴 프로세스
현안분석 ⇨ 외부 사례 분석 ⇨ 주무 부서 검토 ⇨ 연관 부서 협의
2. 데이터 수준 검토
데이터 수준이 확보되지 않을 경우 원하는 분석 결과를 얻을 수 없다.
3. 우리가 원하는 데이터는 어디에 있을까?
- 내부? 외부? 공공? 민간?
4. 데이터 수집 네트워크 구축
○ 데이터 수집을 위해 인적 네트워크 및 조직 네트워크가 중요함
⇒ 개인과 조직의 네트워크 역량이 데이터 수집의 Key Point
5. 대체 데이터 검토
○ 데이터간 상관관계에 따라 대체 가능 여부가 결정됨
※ 필수데이터는 꼭 있어야 함
- 삼겹살, 상추, 소주 대체 불가능한 데이터 대체 가능한 데이터
- 닭고기 돼지고기
Ⅵ. 분석결과 청사진 작성 및 활용계획 수립
1. 분석결과 청사진 작성
○ 빅데이터 분석결과에 대한 구체적인 청사진 작성
2. 분석결과 청사진 작성기준
○ 데이터, 사용자, 활용 관점에서 청사진을 작성
● 분석결과 측정 1. 데이터 기반 청사진 작성
2. 분석결과 사용자 관점
3. 분석결과 활용 관점
3. 활용 목표 설정
○ 복지 서비스 분석기획
● 남원시 – 관내 노인의 복지향상 ⇒ 목욕봉사차량
- 확대 도입 자료 Q1. 빅데이터 분석을 위해 필요한 데이터는?
Q2. 빅데이터 분석을 통해 얻어야 하는 결과는?
- 노인 인구수 (남여) ?
- 목욕봉사차량 배치 활용지역
- 노인거주지역 및 분포도
- 목욕실시 능력/1대당(MAX/MIN)
- 1대당 차량가격 및 예산 성립 가능성
- 자원봉사 가능인력(40~50대)
- 관내도로현황
- 목욕탕 위치
05 공공기관의 빅데이터 분석사업 사례발표
김 홍 수 (국민연금공단)
06 인공지능시대의 상상력코드
(알파고 이후, 창의력 & 상상력)
최 윤 규 (카툰경영연구소)
○ 지식의 경계선이 무너지고 상상력과 창조, 융합의 시대
○ 산업의 종류
- 제1차 산업 – 농업 등 - 제2차 산업 - 산업화
- 제3차 산업 - 정보지식
- 제4차 산업 – 지식집약형(정보, 의료, 교육, 서비스 산업 등)
- 제5차 산업 – 패션, 오락, 레저산업 등
○ 생각의 힘을 키워야 한다.
○ 기업과 농업을 융합하자!
○ 총을 먼저 잡는 사람이 이긴다. - 총만 잡으려고 하면 질 수 있다.
○ 차 안만 보고 살 것 인지? 차 밖을 보고 살 것 인지?
○ 생각의 힘을 키워야 한다.
○ 기업과 농업을 융합하자!
○ 총을 먼저 잡는 사람이 이긴다. - 총만 잡으려고 하면 질 수 있다.
○ 차 안만 보고 살 것 인지? 차 밖을 보고 살 것 인지?
사례) 빅데이터로 보는 전라북도 ISSUE
- 혜안을 활용한 ‘전북 음식’ 관련 웹소셜 분석(’17.4.5.)
1) 분석 키워드 : 전라북도 음식
2) 데이터 수집기간: ’14. 01. 01. ~ ’17. 3. 28.(3년간)
3) 데이터 수집출처 : 뉴스, 블로그‧트위터 게시글
□ 분석배경
○ 인간생활의 가장 필요한 3가지, ‘의식주(衣食住)’ 중 식(食)은 인간의 가장 원초적 본능이며, 요즘 들어 ‘먹방’, ‘쿡방’ 등 신조어의 등장과 함께 음식에 대한 인기가 높아져 가고 있음
○ 이런 소위 ‘먹방의 시대’에 ‘맛의 고장 전북’과 연관된 음식 키워드가 무엇인지 최근 3년간 추이를 알아보고, 소셜분석을 통해 어떤 키워드가 이슈로 등장하였는지 확인해 봄
□ 키워드 분석결과
① 워드클라우드 분석
※ 워드클라우드 : 텍스트 문서를 분석하여 단어들을 중요도나 인기도 등을 고려하여 늘어놓은 것
※ 글자의 크기가 클수록 가중치 값이 크고, 색이 진할수록 검색건수가 많음.
○ (상위 키워드 분석결과) 전북을 대표하는 음식인 ‘비빔밥’, ‘떡갈비’, ‘콩나물국밥’, ‘한정식’ 등에 대한 검색이 많이 도출되었고, 주요 관광지가 있는 전주(한옥마을), 군산 지역이 높은 검색을 보이는 등 음식과 관광지와의 연관성을 확인할 수 있었음
○ 눈에 띄는 키워드는 ‘아이들’임
- 최근 외식트렌드를 보면 1인 외식 비중이 증가하여 혼밥족을 겨냥한 다양한 상품들이 인기를 끌고 있지만 전북은 ‘아이들’의 키워드가 도출된 것으로 볼 때 아직 가족 중심의 외식 비중이 높은 것으로 보이며, 메뉴 선택 시 ‘아이들’과 함께 먹을 수 있는 음식을 고려하는 것으로 보임
② 연도별 키워드 변화(2014~2017.3)
<블로그, 트위터 분석>
<뉴스분석>
○ (랭킹분석을 통한 연도별 키워드 동향) 데이터 수집출처에 따라 비슷한 키워드들이 3년 동안 뚜렷한 변화를 보이지 않았고, 뉴스의 경우는 음식점, 지역행사나 축제, 사건·사고 등과 관련된 키워드로 분석결과에 많은 차이를 보였음
- (블로그‧트위터) ‘비빔밥’, ‘떡갈비’, ‘콩나물국밥’이 상위에 랭크되어 전북을 대표하는 음식임을 재확인하였음. 또한 특정음식(점)의 홍보 극대화를 위해 운영하는 맛집 블로그의 영향으로 ‘지역(전주·군산·고창·익산)’, ‘주차장’, ‘영업시간’, ‘밑반찬’ 키워드 등 다양하게 도출되었음
- 재미있는 분석결과로 ‘칼국수’의 경우, 계절별 변동 폭이 큰데 이는 날씨가 쌀쌀한 계절(2~4월)에 검색추이가 높아 변화가 심했던 것으로 보이고, 예상했던 전주의 특정 음식점(**랑)과의 연관성은 낮았음
○ (뉴스) 특이사항으로 ‘식재료’ 키워드의 경우, 특정 요리경연 프로그램(한식대첩 시즌2,3)에 전북팀이 참가하면서 ’14년~’15년에 상위에 랭크되었고, ‘고창’ 키워드(삼시세끼, ’16.7월) 역시 이와 비슷한 경우임
□ 맺음말
○ 인터넷의 발달로 음식에 대한 정보를 얻기 쉬워지고 음식 맛에 대한 SNS 평가 등의 영향으로 전국적으로 맛이 평준화되었으며, 사회․환경적(저성장, 1인가구, 개인주의 등) 영향으로 개인의 식성과 선호도가 변하고 있음
○ 이런 흐름 속에 우리도는 ‘맛의 고장’이란 이미지를 계승·발전시키기 위해 무엇을 변화시키고 특화해야 하는지 맛 외의 차별성을 고민해야 하며, 가족 단위의 외식을 고려해 ‘아이들’이 선호하는 음식 또는 현재 트렌드(혼밥족)를 반영한 음식의 다양화를 꾀해야하지 않을까 생각됨
○ ‘2017년 전북 방문의 해’를 맞아, 보고 느끼고 체험할 수 있는 여행상품에 ‘맛집투어’, ‘혼자하는 여행’ 코스 등을 개발하고, 축제, 먹방 프로그램과 연계하면 전북의 이미지 제고 및 지역 경제 활성화 효과라는 일석이조의 효과를 얻지 않을까?
|