11강. 빅데이터분석기사
추천글 : 【데이터베이스】 데이터베이스 목차
1. 빅데이터의 정의 [본문]
2. 하둡 에코시스템 [본문]
3. 데이터베이스 구현 시스템 [본문]
4. 비식별화 조치 [본문]
5. 정규 표현식 기호 [본문]
6. 데이터 오류의 원인 [본문]
※ 데이터 분석기사 필기시험에 대한 주요 사항을 요점 노트 형식으로 정리하였습니다.
1. 빅데이터의 정의 [목차]
⑴ 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속의 수집, 분석, 발굴을 지원하도록 고안된 차세대 기술이자 아키텍트임
⑵ 빅데이터는 일반 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
⑶ 빅데이터는 데이터의 양(volume), 다양성(variety), 속도(velocity)가 급격히 증가하면서 나타난 현상
2. 하둡 에코시스템 [목차]
⑴ 비정형 데이터 수집
① 척와(chukwa)
② 플럼(flume) : 많은 양의 로그 데이터를 효율적으로 수집, 집계 및 이동하기 위해 이벤트와 에이전트를 활용한 분산형 로그 수집 기술
③ 스크라이브(scribe) : 스트리밍되는 로그 데이터를 수집
○ 다수 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술
○ (주석) 암기 팁 : 스크라이브와 스트리밍이 어감이 비슷해서 쉽게 암기
④ 스크래파이(scrapy) : 주요 기능으로는 spider, selector, items, pipelines, settings가 있음
⑤ (주석) 암기 팁 : '비정형'이라는 말답게, 척와, 플럼, 스크라이브라는 말이 어렵게 느껴짐
⑵ 정형 데이터 수집
① 스쿱(sqoop; SQL-to-Hadoop) : 파이썬 기반이 아님
○ (주석) 암기 팁 : 'scoop'을 연상
② 히호(hiho)
③ (주석) 암기 팁 : '정형'이라는 말답게, 스쿱, 히호라는 말이 쉽게 느껴짐
⑶ 분산 데이터 저장
① HDFS(Hadoop distributed file system)
⑷ 분산 데이터베이스
① HBase : 컬럼 기반 저장소로 HDFS와 인터페이스 제공
⑸ 분산 데이터 처리
① 맵리듀스(map reduce) : input → map → shuffle → reduce → output 순으로 처리
⑹ 리소스 관리
① 얀(YARN)
⑺ 인메모리 처리
① 아파치 스파크(Apache spark) : 하둡 기반 데이터 분산처리시스템으로 실시간 데이터 처리에 활용됨
○ (주석) 암기 팁 : 스파크가 탁 튀는 느낌으로 실시간 데이터를 처리하는 식으로 암기
⑻ 데이터 가공
① 피그(pig) : 대용량 데이터 집합을 분석하기 위한 플랫폼
② 하이브(hive) : 하둡 기반의 DW 솔루션. HiveQL이라는 쿼리를 제공
⑼ 데이터 마이닝
① 머하웃(mahout)
○ (주석) 암기 팁 : '마'라는 글자와 '머'라는 글자가 유사하다는 것에 착안
⑽ 실시간 SQL 질의
① 임팔라(impala) : 하둡 기반 실시간 SQL 질의 시스템. HiveQL 사용. HBase와 연동 가능
② 타조(tajo) : 하둡 기반의 ETL(extract transform load) 기술을 이용
③ (주석) 암기 팁 : 동물과 관련?
⑾ 워크플로우 관리
① 우지(oozie) : 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
○ (주석) 암기 팁 : '워'라는 글자와 '우'라는 글자가 유사하다는 것에 착안
⑿ 분산 코디네이션
① 주키퍼(zookeeper)
3. 데이터베이스 구현 시스템 [목차]
⑴ HBase
① HDFS를 기반으로 구현된 컬럼 기반의 분산 데이터베이스
⑵ Tajo
① 다양한 데이터 소스를 위한 하둡(Hadoop) 기반의 ETL(extract transform load) 기술을 이용해서 데이터 웨어하우스(DW)에 적재
② HDFS 및 다양한 형태의 데이터를 추출하고 분석 시스템에 전송하여 집계 및 연산, 조인, 정렬 기능을 제공
⑶ Oozie
① 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
② 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어
⑷ Zookeeper
① 분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공하는 분산 코디네이션
4. 비식별화 조치 [목차]
⑴ k-익명성(k-anonymity)
① 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여 쉽게 다른 정보로 결합할 수 없도록 하는 모델
② 공개된 데이터에 대한 연결 공격 취약점을 방어하기 위한 모델
⑵ l-다양성(l-diversity)
① 주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도 l개의 서로 다른 민감한 정보를 가져야 하는 모델
② 비식별 조치 과정에서 충분히 다양한 (l개 이상) 서로 다른 민감한 정보를 갖도록 동질 집합을 구성
③ k-익명성에 대한 두 가지 취약점 공격인 동질성 공격, 배경지식에 의한 공격을 방어하기 위한 프라이버시 모델
⑶ t-근접성(t-closeness)
① 동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t 이하의 차이를 보여야 하는 모델
② l-다양성의 쏠림 공격, 유사성 공격을 보완하기 위해 제안된 모델
③ (주석) 한 마디로, 분포 상에서 너무 튀는 데이터는 그것대로 쉽게 추측할 수 있는 정보라는 것
⑷ m-유일성(m-uniqueness)
① 원본 데이터와 동일한 속성 값의 조합이 비식별 결과 데이터에 최소 m개 이상 존재하도록 하여 재식별 가능성 위험을 낮춘 모델
⑸ 차등 프라이버시(differential privacy)
① 데이터셋에 임의의 노이즈를 삽입함으로써 개인정보가 제3자에게 노출되지 않도록 하는 기법
5. 정규 표현식 기호 [목차]
⑴ + : 1개 이상의 문자열 매칭
⑵ ^ : 시작 문자열
⑶ * : 0개 이상의 문자열 매칭
⑷ $ : 종료 문자열
6. 데이터 오류의 원인 [목차]
⑴ 결측값(missing value) : 필수적인 데이터가 입력되지 않고 누락된 값
⑵ 노이즈(noise) : 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값
⑶ 이상값(outlier) : 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값
① ESD(extreme studentized deviation) : 평균(μ)으로부터 3 표준편차(σ) 떨어진 값(각 0.15%)을 이상값으로 판단
② 기하평균을 활용한 방법 : 기하평균으로부터 2.5 표준편차(σ) 떨어진 값을 이상값으로 판단
③ 사분위수를 이용한 방법 : 제1 사분위, 제3 사분위를 기준으로 사분위 간 범위(Q3 - Q1)의 1.5배 이상 떨어진 값을 이상값으로 판단
④ Z-score를 활용한 이상값 검출 : 평균이 μ이고, 표준편차가 σ인 정규분포를 따르는 관측치들이 자료의 평균에서 얼마나 떨어져 있는지를 나타냄에 따라서 이상값을 검출
입력: 2017.10.02 21:53
수정: 2023.09.19 00:03
'▶ 자연과학 > ▷ 데이터베이스∙빅데이터분석기사' 카테고리의 다른 글
【데이터베이스】 12강. SQL (0) | 2021.10.11 |
---|---|
【데이터베이스】 10강. 기타 데이터베이스 (0) | 2017.10.03 |
【데이터베이스】 3-1강. 정규화 (0) | 2017.10.02 |
【데이터베이스】 3강. 관계형 데이터베이스 (0) | 2017.10.02 |
【데이터베이스】 2강. 데이터베이스 기본 (0) | 2017.10.02 |
최근댓글