공부하면서 기출문제 선지 분석해서, 외울 것들만 정리..
데이터의 유형
정성적 데이터
: 언어, 문자로 표현 (ex. 회사 매출이 증가함) / 정성스럽게 길게도 썼네
정량적 데이터
: 수치, 도형, 기호로 표현 (ex. 나이, 몸무게)
암묵지와 형식지
📌 암묵지와 형식지의 상호작용
: 공통화(암묵지) ▶️ 표출화 ▶️ 연결화(형식지) ▶️ 내면화 [여기서 다시 공통화로 넘어감(루프)]
암묵지: 개인
형식지: 문서나 매뉴얼화된 지식
DIKW (예시 중요)
D(Data) 데이터
: 가공하기 전의 순수한 수치나 기호 (ex. A마트 연필 100원, B마트 연필 100원)
I(Information) 정보
: 패턴 인식해 의미 부여한 데이터. 데이터로 비교분석. (ex. A마트의 연필이 더 싸다.)
K(Knowledge) 지식
: 상호 연결된 정보 패턴 이해해 예측한 결과물. 행위로 이어짐. (ex. 상대적으로 저렴한 A마트에서 연필을 사야겠다.)
W(Wisdom) 지혜
: 사실에 기반한 예측(추측). 창의적 아이디어. (ex. A마트의 다른 상품도 B마트보다 쌀 것이라고 판단.)
데이터베이스의 특징
1️⃣ 통합된 데이터
: 동일한 내용 중복X
2️⃣ 저장된 데이터
: 컴퓨터가 접근할 수 있는 저장매체에 저장.
3️⃣ 공용 데이터
: 여러 사용자가 데이터를 공동으로 이용. 서로 다른 목적으로 이용 가능.
4️⃣ 변화되는 데이터
: 새로운 데이터 삽입, 삭제, 갱신해도 항상 정확한 데이터 유지해야함.
데이터베이스 설계 절차
요구사항 분석 ▶️ 개념적 설계 ▶️ 논리적 설계 ▶️ 물리적 설계
기업 내부 데이터베이스
1️⃣ OLTP(Transaction)
: 과거에 사용됨. 데이터 베이스 데이터 수시 갱신하는 프로세싱.
2️⃣ OLAP(Analytical)
: 현대에서 사용. 다차원 데이터 대화식으로 분석.
3️⃣ CRM(고객관계관리)
: 고객관리 단어 있으면 CRM
4️⃣ SCM(공급망 관리)
: 공급망, 최적화 단어 있으면 SCM
5️⃣ ERP(Enterprise Resource Planning)
: 기업 전체를 경영자원의 효과적 이용이라는 관점에서 통합적으로 관리하고 경영의 효율화를 기하기 위한 시스템
기업, 경영자원, 효율화 있으면 ERP
6️⃣ BI(Business Intellignece)
: 리포트 중심의 도구. 데이터 정리 분석해 의사결정에 활용
7️⃣ BA(Business Analytics)
: 통계 수학에 초점. 통계를 기반으로 비즈니스 통찰력에 초점
빅데이터
4V: Volume(양), Variety(종류), Velocity(속도), Value(가치)
더그래니의 3V: (Value빼고 나머지)
클라우드 컴퓨팅 기술은 빅데이터 분석에 경제성을 제공
빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
빅데이터의 수집, 구축,분석의 최종 목적: 새로운 통찰과 가치를 창출.
빅데이터의 출현 배경
: 데이터 장치의 가격 ⬇️
(글로벌 네트워크 통한 대량 공급 + 가격 경쟁력 확보 ➡️ 과거의 비즈니스 전략)
글로벌 기업의 빅데이터 활용 사례
1️⃣ 구글: 실시간 자동 번역 시스템
2️⃣ 넷플릭스: 영화 추천해주는 Cinematch
3️⃣ 월마트: 고객소비패턴 분석 월마트랩
4️⃣ 자라: 판매량 실시간 데이터 분석으로 상품 수요 예측
빅데이터에 거는 기대 비유
1️⃣ 산업혁명의 석탄, 철
: 혁명적 변화를 가져올 것
2️⃣ 21세기 원유
: 산업전반에 생산성 향상, 기존에 없던 새로운 범주의 산업 형성
3️⃣ 렌즈
: 렌즈를 통해 현미경이 생물학 발전에 미친 영향 만큼이나 데이터가 산업발전에 영향을 줄 것 (ex. 구글의 Ngram Viewer)
4️⃣ 플랫폼
: 공동 활용의 목적으로 구축된 유무형의 구조물로서 역할
📍 플랫폼형 비즈니스모델: 상품, 서비스, 기술 등의 기반 위에 다른 이해관계자들이 보완적인 상품, 서비스, 기술을 제공하는 생태계 구축을 목표로 하는 비즈니스 모델.
본질적인 변화
사전처리 ▶️ 사후처리
표본조사 ▶️ 전수조사
질 ▶️ 양
인과관계 ▶️ 상관관계
기술이 발전해서 닥치는 데로 데이터를 모으면 된다. 서로 분석해서 상관이 있는지 확인.
가치선정이 어려운 이유
1️⃣ 데이터 재사용 재조합해 활용하면서, 특정 데이터 언제 어디서 누가 활용할지 알 수 X
2️⃣ '기존에 없던 가치' 창출해서
3️⃣ 현재는 가치가 없어도, 기술이 발전하면 가치가 있는 데이터가 될 수 있어서 어떤 데이터가 쓸모 없는지 알 수 없음
4️⃣ 과거에 분석 불가능했던 데이터도 분석할 수 있기 때문
빅데이터 기본 테크닉
1️⃣ 연관규칙학습 (=연관분석) (=장바구니분석)
: 기저귀 사는 사람들이 맥주를 더 많이 산다.
2️⃣ 유형 분석 (=분류분석)
: 이 사용자는 어떤 특성을 가진 집단에 속하는가? (ex. SVM)
3️⃣ 유전자 알고리즘
: 최적해를 구하는 알고리즘. 최적화, 최대화 나오면 유전자 알고리즘.
(ex. 최적화된 택배 차량 배치, 최고의 시청률을 내기 위한 방송 프로그램 배치)
4️⃣ 회귀분석
: 원인이 결과에 어떤 영향을 미치는가.
(ex. 구매자의 나이가 구매 차량 타입에 어떤 영향을 미치는가, 구매자의 만족도에 충성도가 어떤 영향을 미치는가.)
5️⃣ 감정분석
: 고객의 평가나 리뷰 통한 분석
6️⃣ 소셜네트워크 분석
: 최근 핀테크 기업에서 대출 제공할 때 사용
딥러닝과 관련있는 분류기법
1️⃣ CNN
2️⃣ LSTM
3️⃣ Autoencorder
딥러닝 오픈소스
1️⃣ Caffe
2️⃣ Theano
3️⃣ Tensorflow
선지 참고
기계학습은 대규모 데이터를 처리, 분석할 때 상당한 분석 인프라와 시간 소요.
한국어의 경우 언어적 특성으로 인해 감정분석 어려움.
미래사회의 특성과 빅데이터의 역할
1️⃣ 불확실성 = 통찰력
2️⃣ 리스크 = 대응력
3️⃣ 스마트 = 경쟁력
4️⃣ 융합 = 창조력
빅데이터 시대 위기 요인
1️⃣ 사생활 침해
: SNS에 올린 데이터로 사생활 침해. 익명화 기술 발전이 필요할 것.
개인정보 사용을 제공자의 동의에서 사용자의 책임으로.
(ex. 구글의 사용자 행동 패턴 예측)
📍 난수화: 사생활 침해 막기 위해 개인정보를 무작위 처리하는 등 데이터가 본래 목적 외에 가공되고 처리되는 것을 방지하는 기술.
2️⃣ 책임 원칙 훼손
: 범죄 예측 프로그램 돌려서 범죄 안저질렀지만 체포하는 것. (애니 사이코패스)
명확히 나타난 결과에 대해서만 책임 물어야함. (결과기반 책임 원칙)
(ex. 신용카드 발급 여부 판단에 있어 불이익 발생)
3️⃣ 데이터 오용
: 데이터 분석 결과가 항상 옳은 것은 아님
불이익을 당한 사람들을 대변할 전문가(알고리즈미스트)가 필요해짐.
(ex. 스티브 잡스가 사람들에게 아이디어 물었으면 아이폰 안나왔음, 비행기 탑승 금지자 목록에 상원의원이 포함.)
빅데이터 활용 3요소
데이터 기술 인력
데이터 사이언스
정형 비정형 막론하고 데이터 분석 (총체적 접근법)
데이터로부터 의미있는 정보 추출해내는 학문.
1️⃣ 분석적 영역
: 수학 분석학 등 이론적 지식
2️⃣ IT
: 프로그래밍, 데이터 엔지니어링, 고성능 컴퓨터, 분산 컴퓨터, 데이터 웨어하우징과 같은 프로그래밍적 지식
3️⃣ 비즈니스 분석(비즈니스 컨설팅)
: 커뮤니케이션, 데이터 시각화, 프레젠테이션과 같은 비즈니스 능력
빅데이터 일차원적 분석(산업별)
트레이딩, 공급, 예측과 같은 단어가 나오면 답은 에너지 (금융X)
선지 참고
신용평가: 핀테크 분야에서 빅데이터 활용이 핵심적인 분야
인공지능: 데이터화 현상에 큰 영향을 미치는 기술
효과적인 분석모델 개발을 위해 넓은 시각에서 모델 바깥의 요인들을 판단할 수 있도록 가능한 많은 과거 데이터 모델에 포함한다. (X)
데이터 사이언티스트 요구 역량
: 호기심이 필요하다.
1️⃣ 하드 스킬
: 빅데이터에 대한 이론적 지식, 분석 기술, 숙련도
가트너가 제시한 역량에는 포함 X
2️⃣ 소프트 스킬
: 통찰력있는 분석능력, 설득력 있는 전달(스토리텔링, 시각화), 협력 능력과 같은 인문학적 능력, 창의적 사고
인문학적 능력의 중요성이 나타난 이유?
단순(컨버전스)세계 ▶️ 복잡(디비전스)세계로의 변화
비즈니스의 중심이 생산 ▶️ 서비스, 시장 창조
데이터 크기 순서
페타바이트(PB) ▶️ 엑사바이트(EB) ▶️ 제타바이트(ZB) ▶️ 요타바이트(YB)
(파리바게트 ▶️ 엘리베이터 ▶️ 제트 ▶️ 와이비~ ㅋㅋ 그냥 .. 이렇게 외움 아니면 파바 > 알파벳순 > 와이비~)
DML, DDL, DCL
1️⃣ DML: SELECT, INSERT, UPDATE, DELETE
2️⃣ DDL: CREATE, DROP, ALTER, TRUNCATE
3️⃣ DCL: GRANT, REVOKE
DBMS: DB 공유 관리할 수 있는 환경 제공하는 소프트웨어
1️⃣ 관계형 DBMS(RDBMS)
: 테이블(표)로 데이터 정리한다고 생각
2️⃣ 객체지향 DBMS
: 정보를 객체(이미지나 영상)으로 정리한다고 생각. 복잡한 데이터 구조 표현.
COUNT()
집계함수중 COUNT()만 수치형, 문자형 둘 다 사용가능.
개인정보 비식별 기술
1️⃣ 데이터 마스킹
: 식과 같은 속성을 유지한 채 새롭고 읽기 쉬운 데이터 익명으로 생성
(ex. 홍길동 ▶️ 홍**)
2️⃣ 가명처리
: 홍길동 ▶️ 임꺽정
3️⃣ 총계처리
: 집단의 평균으로 대체
4️⃣ 범주화
: 단일식별정보를 해당그룹의 대표값으로 대체
(ex. 홍길동 35세 ▶️ 홍길동 30~40세)
하둡
여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
하둡은 빅데이터 플랫폼 환경 구축을 위해 사용될 뿐, 빅데이터가 하둡을 기반으로 하진 않는다.
데이터 유형
: 양질의 데이터를 확보하지 못하면 잘못된 분석결과 얻음.
창의적인 데이터 매시업(Mashup)은 기존에 풀기 어려웠던 문제해결에 도움.
1️⃣ 정형 데이터
: 관계형 데이터베이스, CSV등 형식이 정해져 있는 데이터
(ex. ERP, CRM, SCM, Demand forecasts(수요예측))
2️⃣ 반정형 데이터
: 눈으로 봤을 때 무슨 정보인지 모르는 데이터. 한번 변환이 있어야 함. 형태(스키마, 메타데이터)가 있음.
(ex. 로그 데이터, 모바일 데이터, 센싱 데이터, Competitor Pricing, Web Logs)
📍 메타데이터: 데이터에 관해 구조화된 데이터로, 다른 데이터를 설명해주는 데이터
3️⃣ 비정형 데이터
: 형태가 없는 데이터.
(ex. 소셜데이터, 영상, 이미지, 소셜미디어에 올린 후기글, 포털사이트 모든 검색어, 콜센터 녹음파일)
데이터 웨어하우스
사용자의 의사결정에 도움을 주기 위해 정보를 기반으로 제공하는 하나의 통합적이고 시간성을 가지는 비휘발성 데이터의 집합.
1️⃣ 데이터의 주제지향성
2️⃣ 데이터의 통합
3️⃣ 데이터의 시계열성
4️⃣ 데이터의 비휘발성
전사적 차원에서 일관적인 형식 유지.
데이터들이 시간의 흐름에 따라 변화하는 값을 가진다.
'자격증/필기/면접 > 자격증' 카테고리의 다른 글
[리눅스마스터2급] 리눅스마스터 2급 합격 +) 2차 정리본 공유 (5) | 2025.01.03 |
---|---|
[리눅스마스터2급] 리눅스마스터2급 1차 시험 (0) | 2024.11.06 |
[ADsP] 제 41회 시험 독학 합격 후기 (0) | 2024.06.07 |