[Bigdata] 1. 빅데이터로 통하는 세상

2025. 4. 27. 18:35·Data/Bigdata
728x90

1.1 데이터와 정보, 그리고 지식

산업혁명

18세기 중반에서부터 19세기 초반까지 영국에서 시작된 기술 혁신, 새로운 제조 공정으로의 전환과 이로 인해 일어난 사회, 경제 등의 큰 변화 
  • 1차 산업 혁명: (석탄) 증기기관 기반의 기계화 혁명 / 공업 생산력 향상 / 가내 수공업 ➡️ 대량 생산+대량소비
  • 2차 산업 혁명: (석탄+석유) 석유와 전기 에너지 기반의 대량 생산 혁명 / 전기의 과학적 이용 ➡️ 자동차, 전차, 비행기 등
  • 3차 산업 혁명: (컴퓨터+인터넷) 정보혁명 / 정보 통신 기술의 발전과 확산 /
    • 정보혁명: 컴퓨터를 이용하여 빠르고 많은 정보의 처리가 가능해지면서 시작된 큰 사회 변화

데이터와 정보, 지식

  • 데이터: 현실 세계에서 측정하고 수집한 사실이나 값
  • 정보: 어떠한 목적이나 의도에 맞게 데이터를 가공 처리한 것(가공된 데이터)
  • 지식: 정보를 집적하고 체계화하여 보편성을 가지도록 한 것

1.2 디지털 세상과 정보의 표현

  • 비트(bit): binary digit(바이너리 디지트)의 약자, 컴퓨터에서 표현되는 배타적 상태인 0과 1로 이루어진 이진수 한 자리
    • 비트만으로 표현할 수 있는 정보는 두 개 밖에 없음(0과 1)
    • 일반적으로 8개의 비트를 묶어서 하나의 정보 표현 단위로 사용
  • 바이트(byte): 8개의 비트 묶음, 1 바이트는 영문 알파벳 한 글자와 특수 기호를 표현하는 단위로 사용(2의 8승 = 256)
  • 유니코드(unicode): 2의 16승 = 65,536가지의 부호 표현 가능
    • UCS코드는 2바이트로 세계 여러 문자를 표현

1.3 디지털 데이터의 용량

사물 인터넷(IoT, Internet of Things)

사물에 센서와 프로세서, 통신 기능, 소프트웨어를 내장하여 네트워크에 연결된 다른 장치나 시스템끼리 데이터를 교환하며 주어진 작업을 처리하는 기술

1.4 정보의 원천 빅데이터

빅데이터

기존 데이터베이스 관리 도구의 능력을 넘어서는 대량의 정형 비정형 데이터 집합으로부터 가치를 추출하고 결과를 분석하는 기술
이전에는 관리되지 않던 새로운 데이터를 수집하고 분석함으로써 새로운 가치를 창출

3V: Volume(양), Velocity(속도), Variety(종류)

+) Veracity(신뢰성), Value(가치), Validity(타당성)

빅데이터와 금융 범죄 방지를 위한 노력

ex) 국세청에서 운영하는 금융정보분석원의 정보시스템은 금융 회사들이 보고하는 빅데이터를 바탕으로 기계학습을 통해 금융 범죄를 찾아냄. 이 시스템은 자금 세탁 범죄와 관련된 금융 거래 정보를 분석하여 법집행기관에 제공하는 자금세탁 방지 시스템으로서 의심 거래 보고, 고액 현금 거래 보고를 바탕으로 운영된다.
  • 의심 거래 보고: 금융 회사에서 금융 거래와 관련하여 자금 세탁이 의심되는 합당한 근거가 있는 경우 금융 정보 분석원에 보고하는 정보
  • 고액 현금 거래 보고: 금융 회사에서 동일인 명의로 1거래일간 이루어지는 현금 거래가 1천만 원 이상인 경우 금융 정보 분석원에 보고하는 정보

1.5 스프레드시트와 데이터베이스

스프레드시트

표 형식으로 나타낼 수 있는 자료를 손쉽게 다룰 수 있는 기능을 제공하는 컴퓨터 프로그램

ex) 엑셀 / 넘버스 / 구글 시트

정형데이터

데이터베이스의 일정한 형식이나 정해진 규칙에 맞게 저장된 데이터

비정형데이터

정해진 규칙이 없어서 값의 의미를 쉽게 파악하기 힘든 형태의 데이터

ex) 텍스트 / 음성 / 영상

반정형데이터

관계형 데이터베이스나 다른 형태의 데이터 테이블과 연결된 정형 구조의 데이터 모델을 준수하지 않는 정형 데이터의 한 형태

ex) JSON / HTML / XML / 로그 등의 데이터는 태그나 기타 마커가 포함되어 있어서 시맨틱 요소를 구분하는 것이 가능

  • 데이터 모델이 따로 없지만, 비정형 데이터와는 달리 데이터 내에서 개별적인 고유의 특징을 식별하는 태그가 포함되어 있다

1.6 데이터 분석 활용 사례

  1. 교통 빅데이터 분석 처리 기술을 이용한 교통 혼합 지도 개발(국토교통부)
  2. 고객 소리 통합 관리 시스템(LG, SK, 삼성전자 등)
  3. 미국 정부의 탈세 방지 시스템
  4. 축구 기술의 선진화를 이룬 EPTS(생물체의 활동을 전자적으로 모니터링하고 추적하는 시스템)

데이터 과학

데이터에서 과학적 방법으로 정보나 지식을 추출하는 학문
데이터 과학은 대표적인 학제간 연구 분야

1.7 데이터 중심의 과학

  • (짐 그레이) 과학의 네 번째 패러다임: 데이터 중심의 과학
  • 데이터에 기반한 과학

1.8 데이터 과학이란

  • 인공지능 연구에서 매우 중요한 부분을 차지하는 것이 데이터의 품질
  • 데이터 과학에서 가장 기본이 되는 1차 데이터를 원천 데이터라고 함
  • 데이터마이닝: 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정
  • 자연어 처리: 인간이 발화하는 언어 현상을 기계적으로 분석하여 컴퓨터가 이해할 수 있는 형태로 만드는 여러가지 기술을 일컫는 용어

1.10 데이터 마켓과 열린 데이터

  • 데이터 마켓: 여러 나라의 정부기관과 의료기관에서 공개하여 데이터 분석가들이 활용할 수 있도록 하는 데이터
  • 열린 데이터: 모든 사람이 제한 없이 자유롭게 사용하고 재사용할 수 있으며 재배포까지 가능한 데이터

1.11 데이터 분석의 단계

  • 데이터 분석 작업의 순서: 문제 정의 > 데이터 수집 > 데이터 탐색 및 전처리 > 모델링 > 시각화 > 해석

핵심정리

빅데이터의 대표적인 특징으로 어떤 것들이 있는가?
빅데이터는 기존 데이터베이스 관리 도구의 능력을 넘어서는 대량의 정형, 비정형 데이터의 집합으로부터
가치를 추출하고 결과를 분석하는 기술을 말하며,
양(volume), 속도(velocity), 종류(variety)라는 대표적인 특징이 있다.

 

728x90

'Data > Bigdata' 카테고리의 다른 글

[Bigdata] 5. 맷플롯립 알아보기  (0) 2025.04.28
[Bigdata] 4. 넘파이의 세계로  (0) 2025.04.28
[Bigdata] 슬라이싱 정리  (0) 2025.04.28
[Bigdata] 3. 넘파이 시작하기  (1) 2025.04.27
[Bigdata] 2. 데이터 분석을 위한 도구  (0) 2025.04.27
'Data/Bigdata' 카테고리의 다른 글
  • [Bigdata] 4. 넘파이의 세계로
  • [Bigdata] 슬라이싱 정리
  • [Bigdata] 3. 넘파이 시작하기
  • [Bigdata] 2. 데이터 분석을 위한 도구
DROPDEW
DROPDEW
💻 Developer | 기록하지 않으면 존재하지 않는다
  • DROPDEW
    제 2장 1막
    DROPDEW
  • 전체
    오늘
    어제
    • Dev (417)
      • App·Android (1)
      • BE (44)
        • HTTP 웹 기본 지식 (8)
        • 스프링 입문 - 코드로 배우는 스프링 부트, 웹 .. (12)
        • 스프링부트와 JPA 활용 (11)
        • 스프링부트 시큐리티 & JWT (0)
        • PHP (6)
      • FE·Client (23)
        • HTML (1)
        • React (19)
        • Unity (1)
      • Data (17)
        • AI (7)
        • Bigdata (6)
        • Database (1)
        • 빅데이터분석기사 (2)
      • Infra (0)
      • Activity (0)
        • Education (0)
        • Intern (0)
        • 리모트 인턴십 6기 (0)
        • 구름톤 유니브 4기 (0)
        • SW교육기부단 15기 (0)
      • CS (8)
      • 취준 (13)
        • 자격증 (4)
        • 인적성·NCS (6)
        • 코테·필기·면접 후기 (3)
      • 코테 (270)
        • Algorithm (222)
        • SQL (35)
        • 정리 (13)
      • 인사이트 (27)
        • 회고 (0)
        • 금융경제뉴스 (7)
        • 금융용어·지식 (2)
        • 북마크 (7)
  • 블로그 메뉴

    • 홈
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    그리디알고리즘
    브루트포스 알고리즘
    문자열
    시뮬레이션
    구현
    누적합
    백준
    자료구조
    그래프이론
    매개변수탐색
    너비우선탐색
    다이나믹프로그래밍
    최단경로
    투포인터
    정렬
    이분탐색
    티스토리챌린지
    수학
    그래프탐색
    오블완
  • 최근 댓글

  • 최근 글

  • 250x250
  • hELLO· Designed By정상우.v4.10.3
DROPDEW
[Bigdata] 1. 빅데이터로 통하는 세상
상단으로

티스토리툴바