이전의 두 교육 시리즈 포스팅에서는 블록체인스마트 컨트랙트에 대해 가치 전달 및 저장을 위한 안전하고 안정적인 인프라라고 설명했습니다. 마치 인터넷이 없는 컴퓨터처럼 블록체인 기반 스마트 컨트랙트도 스마트 컨트랙트에서만 가능한 토큰 생성 및 스와핑이라는 가치가 있습니다. 하지만 스마트 컨트랙트는 방대한 외부 데이터와 블록체인 생태계(오프체인) 외부에 있는 API 경제에 연결되면 기하급수적으로 더 강력해집니다. 데이터 공급자, 웹 API, 기업 시스템, 클라우드 공급자, IoT 기기, 결제 시스템, 다른 블록체인 등에서 생성된 방대한 데이터를 스마트 컨트랙트가 잘 활용할 수 있다면 전 세계 주요 시장에서 가장 통용되는 디지털 계약서의 형태가 될 수 있습니다.

이번 포스팅에서는 데이터 및 API에 대해 더 설명하겠습니다.

  • 데이터는 무엇이며 어떻게 데이터 경제를 이끌어나가는가?
  • 데이터는 어떻게 생성되는가?
  • API를 통해 데이터가 어떻게 교환되는가?
  • 빅데이터 분석은 무엇인가?

오프체인 데이터 경제의 전체 범위를 이해해야만 다음 포스팅의 주제인 ‘오라클’이라는 추가 인프라를 통해 스마트 컨트랙트와 데이터 경제의 리소스를 활용하는 법에 대해 이해할 수 있습니다.

데이터와 데이터 경제

데이터

데이터는 관찰을 통해 습득한 특성 또는 정보로 외부 온도 측정, 차량 위치 계산 또는 온라인 애플리케이션과 사용자의 인터랙션을 문서화한 것 등이 예시입니다. 로우 데이터 자체만으로는 특별한 가치가 없거나 신뢰할 수 없지만 유의미한 데이터를 얻기 위해서는 상황에 맞는 데이터가 있어야 데이터의 타당성을 확인할 수 있습니다.

메타데이터

메타 데이터는 데이터에 대한 데이터로 주로 데이터 추적 방식과 데이터를 쉽게 활용하는 것에 대한 기본적인 정보로 구성되어 있습니다. 예를 들어 문자를 전송하는데 걸리는 시간, 온도 측정 시 지리적 위치 또는 통화시간 등이 색인(index)를 이해하고 데이터에 의미를 부여하는 메타 데이터입니다.

데이터 클리닝

미션 크리티컬 애플리케이션에 사용될 데이터는 처리 및 클리닝 과정을 거쳐야 신뢰할 수 있는 데이터로 탄생합니다. 클리닝 과정에서 아웃라이어를 제거하고 부정확한 데이터를 발견하며 연관 없는 정보를 무시하게 됩니다. 예를 들어 현재 기온과 과거의 기온을 비교하기 위해서는 아웃라이어를 찾아 제거해야 합니다.

데이터 경제

데이터 경제란 가치 있는 인사이트를 제공하기 위해 모든 데이터가 수집, 정제 및 교환이 되는 경제적 생태계입니다. 임상 실험 결과를 저장해 공유 의료 데이터를 구축하거나 회사가 내부 운영 과정을 추적해 비효율적인 부분을 개선하는 등 이런 인사이트를 통해 사회적 가치를 최대로 낼 수 있도록 할 수 있습니다.

데이터 경제가 성장함으로써 사람이 중개하지 않고도 데이터의 자동화를 통해 경제 활동을 직접 유발할 수 있는 새로운 가능성이 열리고 있습니다. 예를 들어 어떤 상품을 구매할 때 상품 도착(GPS 데이터), 양호한 상품 상태(IoT 데이터) 및 세관 통과(웹 API) 정보와 같은 3가지 데이터가 확인되면 상품에 대한 결제를 하게 하는 응용 프로그램 만들기가 가능합니다.

데이터 생성

데이터는 프로세스 또는 이벤트의 부산물입니다. 데이터는 생성을 위한 입력(액션), 기록을 위한 추출(측정) 및 집계 기술(분석)이 있어야 의미가 부여됩니다. 특정 입력 및 추출/집계 기술에 대해 모두가 동일한 액세스를 가질 수 없기 때문에 모든 데이터가 동일하게 생성되지 않고 모든 사람이 동일한 품질의 데이터를 생성하는 것은 아닙니다.

새로운 데이터 또는 가공되지 않은 근원 데이터를 수집하는 몇 가지 일반적인 방법은 다음과 같습니다.

  • 양식 (수동 입력) – 설문조사 참여, 문서 서명 및 소셜 포럼 참여와 같은 공통 또는 개인별 양식을 제공해 수동으로 작성한 데이터를 수집하는 방식
  • IoT (실시간 모니터링) – 스마트폰, 스마트 가전제품, 웨어러블 헬스케어 디바이스, RFID 추적 제품 등과 같이 인터넷을 통해 데이터를 전송하는 센스 및 액추에이터가 장착된 장치로 데이터를 수집하는 방식
  • 독점 프로세스 / 개인 경험 (소유권) – 비즈니스 프로세스(특허 보유 또는 시장 리더)에 대한 회사의 소유권 또는 다른 사람의 고유한 개인 경험을 통해 수집된 데이터
  • 연구 및 분석 (조합 및 해석) – 기존 데이터 세트를 가져와 고유의 해석을 부여해 데이터를 수집하는 방식 (예: 역사적 데이터에 대한 교차 검증, 다른 데이터 세트와 비교, 새로운 필터링 또는 계산법 등

데이터 어그리게이터 또는 가치있는 데이터를 제공하는 회사로부터 데이터를 큰 단위로 구매해 데이터를 엔드 유저에게 재판매하는 데이터 리셀러도 있습니다. 데이터를 더 비싼 가격에 판매하기 위해 리셀러들은 고객에 맞춰 커스마이징된 필터 또는 포맷에 맞출 수 있도록 데이터를 사전처리하기도 합니다.

데이터 교환

차세대 애플리케이션에 있어서 데이터가 핵심 구성요소가 되기 위해서는 업계에서 자체적으로 데이터를 생산하기보다는 시장에서 서로 데이터를 사고팔아야 합니다. 데이터를 구매하는 것이 데이터를 생성하는 것보다 훨씬 저렴할 수 있습니다. 예를 들어 자가운전차량 알고리즘을 구축하기 해서는 차량 감지, 차량 분류, 차량 위치 파악 및 차량 예측 이동방향에 대한 방대한 양의 데이터가 필요합니다. 이 데이터를 얻기 위해 개발자는 수백만 마일을 직접 운전해 내부적으로 데이터를 생산하거나 API를 통해 외부에서 구매할 수 있습니다.

API는 외부 애플리케이션이 시스템 내 특정 데이터 또는 서비스에 액세스하는 방법에 대한 지침입니다. API는 오늘날 데이터 및 서비스를 사고파는 표준이 되었습니다. 인기 는 자동차 공유 앱 우버(Uber)는 필요한 서비스를 하나씩 따로 구축하는 대신 위치 데이터 용 GPS API인 MapBox와 메시징 데이터 용 SMS API인 Twilio를 사용하여 앱 기능을 관리합니다.

(API 경제는 시작 단계부터 새로운 API 도입 및 API를 관리하는 혁신적인 방식을 계속해서 보여주며 꾸준히 상승세를 보이고 있습니다. 출처: Software Development Company Informatica)

API는 일반적으로 최종 사용자가 사용량에 따른 요금 지불(미터), 표준 월별 요금제(라이선스) 또는 일부 형태의 다른 결제 서비스를 통해 수익을 창출합니다. 이는 데이터 공급자들이 데이터를 생성하도록 하는 경제적 인센티브가 되며 엔드 유저들은 자체 인프라를 구축할 필요가 없어집니다. 또한 API 공급자와 유료 사용자 간 법적 구속력이 있는 계약을 체결해 데이터 불법 복제 및 무단 재판매 같은 악의적인 활동을 방지하고 데이터 공급자가 표준 품질에 대한 책임을 지도록 합니다.

날씨 데이터를 제공하는 Open Weather Map, 비행 상태 데이터를 제공하는 Skyscanner Flight Search 및 전 세계 인간행동 및 신념에 대한 데이터를 제공하는 GDELT를 포함해 누구나 액세스할 수 있는 개방된 다양한 무료 API가 있습니다. 또한 전 세계 정부는 오픈 데이터 이니셔티브의 일환으로 공개 API를 통해 더 많은 양의 데이터를 제공하고 있습니다.

하지만 개방형 API는 유료 API와 비교해 경제적 인센티브 및 법적 관리가 부족해 유료 API 만큼의 품질관리 및 성능 개선을 기대하기는 어렵습니다. 유료 API는 주요 데이터 소스에 액세스가 있고 풀 스택 인프라, 풀 타임 모니터링 팀을 꾸려 비즈니스를 위해 다른 데이터 공급자들과 계속 경쟁에서 우위를 선점하기 위해 계속해서 혁신을 통해 발전하기 때문에 대부분의 고품질 데이터는 유료API로부터 제공받습니다.

빅 데이터 인프라 및 분석

인간은 스스로 배우고 개선할 수 있는 방식으로 프로그래밍 시스템을 많이 택하고 있습니다. 데이터 학습은 행동을 취하고 결과를 받고 과거 데이터에 대해 분석하고 특정 목표를 달성하기 위해 미래에 더 잘 수행할 수 있는 방법에 대해 새로운 인사이트를 얻어 촉진됩니다. 이와 같이 방대한 양의 데이터를 가져와 필터링하고 분류해 심층적인 통찰력을 결과적으로 얻을 수 있는 인프라를 구축하는 것이 메가 트렌드입니다.

서양의 페이스북, 구글, 아마존과 동양의 알리바바, 텐센트, 바이두는 그들의 인터넷 애플리케이션을 사용하는 유저들로부터 방대한 양의 데이터를 축적해 tech giant가 되었습니다. 이러한 데이터는 특히 AI 및 머신 러닝 소프트웨어와 같은 세계 최고의 데이터 분석의 기반이 되었습니다. 이러한 기술들은 소비자 행동, 소셜 트렌드 및 시장 관행에 대한 광범위한 통찰력을 제공합니다.

데이터 분석과 더불어 비즈니스 관리 소프트웨어는 기업이 운영을 더 잘 이해하도록 도와줍니다. SAP, Salesforce 및 Oracle과 같은 회사들은 ERP(Enterprise Resource Planning), CRM(Customer Relationship Management) 및 클라우드 관리 소프트웨어를 구축해 기업이 모든 데이터 및 시스템을 컴파일하여 주요 인사이트를 생성해 내부 비즈니스 프로세스를 관리할 수 있도록 도와줍니다.

클라우드 컴퓨팅 및 스토리지는 점점 더 대중화되어 디지털 인프라를 안정적이게 광범위하게 제공하게 되었습니다. 클라우드 컴퓨팅을 사용하면 데이터를 저장하고 처리하기 위한 인프라를 많은 사용자들이 공유할 수 있으므로 개별 사용자가 시스템을 프로비저닝하고 실행할 필요가 없습니다. 또한 클라우드 컴퓨팅은 애플리케이션의 백엔드 프로세스를 개선하고 시스템 간 공유를 향상시켰으며 AI/ML 소프트웨어 액세스 비용도 절감했습니다. 예를 들어 구글 클라우드 사용자는 ML 기능이 내장된 BigQuery 서비스형 소프트웨어(SaaS)를 활용해 페타바이트 규모의 데이터를 분석할 수 있습니다.

제4차 산업혁명을 향해 나아가기

AI/ML, 비즈니스 관리 소프트웨어 및 클라우드 인프라를 결합하면 데이터에서 도출된 인사이트를 향상시킬 수 있는 더 나은 도구가 됩니다. 또한 에지 컴퓨팅, 5G 네트워크, 생명공학과같이 실시간으로 연결된 데이터 환경도 트렌드의 가속화에 기여하고 있습니다. 실시간으로 끊임없이 데이터가 생성 및 공유되고 이러한 시스템 덕분에 인력이 덜 필요로 하는 방식으로 실시간 데이터를 기반한 의사결정을 내릴 수 있는 데이터로 구현되는 경제 시스템으로 나아가고 있습니다. 실제로 많은 사람들이 이런 메가 트렌드를 제4차산업혁명이라 언급하고 있습니다.

더 알아보기

더 궁금하신 분들은 다음 교육 시리즈인 “오라클 문제”를 확인해 주세요. 다음 포스팅 업데이트 시 알림을 받고 싶다면 체인링크 트위터를 팔로우하거나 텔레그램 방에서 체인링크 최신 뉴스를 받아보세요.

Kakaotalk: https://open.kakao.com/o/gWXAAf0b
Telegram: https://t.me/chainlink_korea
Facebook Group: https://web.facebook.com/groups/459042728150845
문의사항: korea@chain.link

GitHub: https://github.com/smartcontractkit/chainlink
Twitter: https://twitter.com/chainlinkofficial
Telegram: https://t.me/chainlinkofficial