본문 바로가기

Contact English

【데이터베이스】 11강. 빅데이터분석기사

 

11강. 빅데이터분석기사

 

추천글 : 【데이터베이스】 데이터베이스 목차 


1. 빅데이터의 정의 [본문]

2. 하둡 에코시스템 [본문]

3. 데이터베이스 구현 시스템 [본문]

4. 비식별화 조치 [본문]

5. 정규 표현식 기호 [본문]

6. 데이터 오류의 원인 [본문]


a. 빅데이터분석기사 필기 키워드 정리


※ 데이터 분석기사 필기시험에 대한 주요 사항을 요점 노트 형식으로 정리하였습니다.

 

 

1. 빅데이터의 정의 [목차]

⑴ 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속의 수집, 분석, 발굴을 지원하도록 고안된 차세대 기술이자 아키텍트임

⑵ 빅데이터는 일반 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터

⑶ 빅데이터는 데이터의 양(volume), 다양성(variety), 속도(velocity)가 급격히 증가하면서 나타난 현상 

 

 

2. 하둡 에코시스템 [목차]

⑴ 비정형 데이터 수집

① 척와(chukwa)

② 플럼(flume) : 많은 양의 로그 데이터를 효율적으로 수집, 집계 및 이동하기 위해 이벤트와 에이전트를 활용한 분산형 로그 수집 기술

③ 스크라이브(scribe) : 스트리밍되는 로그 데이터를 수집

다수 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술 

○ (주석) 암기 팁 : 스크라이브와 스트리밍이 어감이 비슷해서 쉽게 암기 

④ 스크래파이(scrapy) : 주요 기능으로는 spider, selector, items, pipelines, settings가 있음 

⑤ (주석) 암기 팁 : '비정형'이라는 말답게, 척와, 플럼, 스크라이브라는 말이 어렵게 느껴짐

⑵ 정형 데이터 수집

스쿱(sqoop; SQL-to-Hadoop) : 파이썬 기반이 아님 

○ (주석) 암기 팁 : 'scoop'을 연상 

② 히호(hiho)

③ (주석) 암기 팁 : '정형'이라는 말답게, 스쿱, 히호라는 말이 쉽게 느껴짐 

⑶ 분산 데이터 저장

① HDFS(Hadoop distributed file system)

⑷ 분산 데이터베이스

① HBase : 컬럼 기반 저장소로 HDFS와 인터페이스 제공 

⑸ 분산 데이터 처리

맵리듀스(map reduce) : input → map → shuffle → reduce → output 순으로 처리 

⑹ 리소스 관리

① 얀(YARN)

⑺ 인메모리 처리

① 아파치 스파크(Apache spark) : 하둡 기반 데이터 분산처리시스템으로 실시간 데이터 처리에 활용됨

○ (주석) 암기 팁 : 스파크가 탁 튀는 느낌으로 실시간 데이터를 처리하는 식으로 암기 

⑻ 데이터 가공

① 피그(pig) : 대용량 데이터 집합을 분석하기 위한 플랫폼 

② 하이브(hive) : 하둡 기반의 DW 솔루션. HiveQL이라는 쿼리를 제공 

⑼ 데이터 마이닝

① 머하웃(mahout)

○ (주석) 암기 팁 : '마'라는 글자와 '머'라는 글자가 유사하다는 것에 착안

⑽ 실시간 SQL 질의

임팔라(impala) : 하둡 기반 실시간 SQL 질의 시스템. HiveQL 사용. HBase와 연동 가능

타조(tajo) : 하둡 기반의 ETL(extract transform load) 기술을 이용

③ (주석) 암기 팁 : 동물과 관련?

⑾ 워크플로우 관리

① 우지(oozie) : 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템

○ (주석) 암기 팁 : '워'라는 글자와 '우'라는 글자가 유사하다는 것에 착안

⑿ 분산 코디네이션

① 주키퍼(zookeeper)

 

 

3. 데이터베이스 구현 시스템 [목차]

⑴ HBase 

① HDFS를 기반으로 구현된 컬럼 기반의 분산 데이터베이스

⑵ Tajo 

① 다양한 데이터 소스를 위한 하둡(Hadoop) 기반의 ETL(extract transform load) 기술을 이용해서 데이터 웨어하우스(DW)에 적재

② HDFS 및 다양한 형태의 데이터를 추출하고 분석 시스템에 전송하여 집계 및 연산, 조인, 정렬 기능을 제공 

⑶ Oozie

① 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템

② 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어 

⑷ Zookeeper 

① 분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공하는 분산 코디네이션 

 

 

4. 비식별화 조치 [목차]

⑴ k-익명성(k-anonymity)

① 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여 쉽게 다른 정보로 결합할 수 없도록 하는 모델

② 공개된 데이터에 대한 연결 공격 취약점을 방어하기 위한 모델

⑵ l-다양성(l-diversity) 

① 주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도 l개의 서로 다른 민감한 정보를 가져야 하는 모델

② 비식별 조치 과정에서 충분히 다양한 (l개 이상) 서로 다른 민감한 정보를 갖도록 동질 집합을 구성

③ k-익명성에 대한 두 가지 취약점 공격인 동질성 공격, 배경지식에 의한 공격을 방어하기 위한 프라이버시 모델

⑶ t-근접성(t-closeness)

① 동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t 이하의 차이를 보여야 하는 모델

② l-다양성의 쏠림 공격, 유사성 공격을 보완하기 위해 제안된 모델

③ (주석) 한 마디로, 분포 상에서 너무 튀는 데이터는 그것대로 쉽게 추측할 수 있는 정보라는 것

⑷ m-유일성(m-uniqueness)

① 원본 데이터와 동일한 속성 값의 조합이 비식별 결과 데이터에 최소 m개 이상 존재하도록 하여 재식별 가능성 위험을 낮춘 모델

⑸ 차등 프라이버시(differential privacy)

① 데이터셋에 임의의 노이즈를 삽입함으로써 개인정보가 제3자에게 노출되지 않도록 하는 기법 

 

 

5. 정규 표현식 기호 [목차]

⑴ + : 1개 이상의 문자열 매칭 

⑵ ^ : 시작 문자열 

⑶ * : 0개 이상의 문자열 매칭 

⑷ $ : 종료 문자열 

 

 

6. 데이터 오류의 원인 [목차]

⑴ 결측값(missing value) : 필수적인 데이터가 입력되지 않고 누락된 값

⑵ 노이즈(noise) : 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값

⑶ 이상값(outlier) : 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값

① ESD(extreme studentized deviation) : 평균(μ)으로부터 3 표준편차(σ) 떨어진 값(각 0.15%)을 이상값으로 판단

② 기하평균을 활용한 방법 : 기하평균으로부터 2.5 표준편차(σ) 떨어진 값을 이상값으로 판단

③ 사분위수를 이용한 방법 : 제1 사분위, 제3 사분위를 기준으로 사분위 간 범위(Q3 - Q1)의 1.5배 이상 떨어진 값을 이상값으로 판단

④ Z-score를 활용한 이상값 검출 : 평균이 μ이고, 표준편차가 σ인 정규분포를 따르는 관측치들이 자료의 평균에서 얼마나 떨어져 있는지를 나타냄에 따라서 이상값을 검출 

 

입력: 2017.10.02 21:53

수정: 2023.09.19 00:03