빅데이터분석기사 필기 키워드 정리
추천글 : 【빅데이터분석기사】 빅데이터분석기사 목차
1. 빅데이터 [본문]
2. 빅데이터 관련 키워드 [본문]
※ 키워드 - 설명 순으로 정리해 두었습니다. 드래그 하면 키워드가 보입니다.
※ 제6회 빅데이터분석기사 실기시험(2023.06.24)부터 기존 단답형 10문제를 작업형 신규 유형인 '작업형 제3유형'으로 대체 (ref)
1. 빅데이터 [목차]
⑴ 정의
① 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속의 수집, 분석, 발굴을 지원하도록 고안된 차세대 기술이자 아키텍트
② 빅데이터는 일반 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
③ 빅데이터는 양(volume), 다양성(variety), 속도(velocity)가 급격히 증가하면서 나타난 현상
⑵ 분야 1. 회귀분석 : 회귀변수가 굉장히 많은 경우가 정규화(regularization, penalization) 등의 방법이 필요함
⑶ 분야 2. 카테고리화 : 분류 알고리즘, 클러스터링 알고리즘 등
⑷ 분야 3. 다중가설(multiple hypothesis) 혹은 hypothesis-free approach
⑸ 분야 4. 비표준 데이터 분석(nonstandard data analysis) : 이미지 패턴 인식, 자연어 처리 등
2. 빅데이터 관련 키워드 [목차]
- AdaGrad : 조정된 경사기반 방식으로 이전 갱신에서 갱신이 많이 된 매개 변수들에 대해서는 학습량을 줄이는 방법을 사용
- Apriori 알고리즘 : 어떤 항목집합이 빈발하다면, 그 항목 집합의 모든 부분집합도 빈발하다는 원리로 연관 규칙 알고리즘 중에서 가장 먼저, 많이 사용되고 있는 알고리즘
- AUC : ROC 곡선 아래의 면적을 의미하며, 분류 모델의 성능을 정량 평가 하는데 사용되는 척도
- BMU : SOM에서는 각 학습 단계마다 입력층의 데이터 집합으로부터 하나의 표본 벡터를 임의로 선택하고 경쟁층의 프로토타입 벡터와의 거리를 계산하고 가장 가까운 프로토타입 벡터를 선택하는데 이 때 선택된 프로토타입 벡터를 나타내는 용어
- CAP 이론 : 분산 컴퓨팅 환경은 availability, consistency, partition tolerance 3가지 특징을 가지고 있으며, 이 중 두 가지만 만족할 수 있다는 이론
- Cook's distance : 자료 진단의 방법. full model에서 관측값 하나가 제외 되었을 때 최소 제곱추정치 벡터의 변화를 표준화한 척도. 기준값인 1보다 클 경우에 영향치로 간주
- ETL : 데이터의 추출, 이동, 변환 절차와 관련된 업계 표준 용어
- F1 score : 정밀도와 재현율의 조화 평균. 정밀도와 재현율을 하나로 합한 평가 지표. 0~1 사이의 범위를 가지며, 1에 가까울수록 모델의 예측값과 실제값이 일치
- FTP : TCP/IP 프로토콜을 이용하여 인터넷 서버로부터 각종 파일들을 송∙수신하는
- Hard Skill : 데이터 사이언티스트의 요구 역량 중 하나. 빅데이터에 대한 이론적 지식 및 분석 기술에 대한 숙련을 지칭함
- H-Base : 구글 Bigtable을 본보기로 하여 자바 기반으로 개발된 비관계형 데이터베이스. 스키마 지정 및 변경 없이 데이터를 저장할 수 있으며, 하둡의 분산파일 시스템(HDFS)에서 동작함으로써 확장성이 보장되는 시스템. 네이버 라인 메신저에 적용하기도 함
- HDFS : 하둡의 이것은 클라우드 컴퓨팅 환경을 구축하기 위해 이용하며, 대용량 데이터의 분산 저장 기능을 제공하는 시스템
- ISP : 정보 기술 및 정보 시스템을 전략적으로 활용하기 위해 조직의 내∙외부 환경을 분석하여 기획 및 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축의 우선순위를 결정하는 중장기 마스터 플랜 수립 절차
- K-익명성 : 특정인에 대한 추론 가능 여부를 검토하여 일정 확률 수준 이상 비식별 되도록 조치함
- K-폴드 교차검증 : 전체 데이터셋을 K개의 집단으로 나눈 뒤 K-1 개의 집단으로 모델을 학습시키고 나머지 1개의 집단으로 모델의 성능을 평가하는 방법
- Kappa : 우연히 정확한 예측을 할 확률을 나타냄. 이 값은 모델의 예측 값과 실제 값이 정확히 일치하는 최대값인 1에서 0까지의 값을 가지며, 1보다 작은 값은 불일치를 의미
- Log Aggregator : 웹 서버 로그, 웹 로그, 트랜잭션 로그, DB 로그 등 각종 서비스 로그를 수집하는 오픈 소스 기술
- l-다양성 : 특정인에 대한 추론이 불가능한 것으로 판단되더라고, 민감한 정보의 다양성을 높임으로써 추론 가능성을 낮추는 기법
- Open API : 서비스, 정보, 데이터 등 오픈된 정보로부터 API를 통해 데이터를 수집하는 기술
- OSS : 토멕링크를 활용한 방법과 CNN의 장점을 섞은 방법. 토멕링크 방법을 통해 분류 경계 근처에 있는 다수 집단의 데이터를 제거하고, CNN을 통해 다수 집단 내에서 근접한 데이터를 제거하여 언더 샘플링을 진행
- RDB Aggregator : 관계형 데이터베이스에서 정형 데이터를 수집하여 HDFS나 NoSQL에 저장하는 오픈소스 기술
- ROC 곡선 : 가로축에 거짓긍정률(FPR=1-특이도) 값을 두고 세로축에 참긍정률(TPR=민감도) 값을 두어 그 관계를 시각화한 그래프로 2진 분류 모델의 성능 평가에 많이 사용됨
- RSS : 웹 상의 최신 정보를 공유하기 위한 XML 기반의 콘텐츠 배급 프로토콜
- SEMMA : SAS 사의 주도로 만들어진 데이터 마이닝 방법론으로 기술 중심, 통계 중심의 방법론. 자사의 기술로 데이터 마이닝 기능을 구성하여 쉽게 데이터 마이닝이 되도록 하는 특징이 있음. 주요 5단계는 샘플링 → 탐색 → 수정 → 모델링 → 검증으로 이루어짐
- SMOTE : 기존에 있는 데이터를 복제하는 대신 더 적은 수의 관측치를 가지고 있는 집단의 데이터들과 일정한 거리를 가진 가상의 데이터를 새로 생성하여 오버 샘플링을 진행하는 방법. K-근접 이웃 알고리즘을 사용해 소수 범주의 데이터들과 가장 가까운 데이터들을 찾은 뒤 새로 합성된 데이터가 그 성향을 반영하도록 함
- SNA : 개인과 집단들 간의 관계를 노드와 링크로 모델링하여 그것의 위상구조와 확산 및 진화 과정을 계량적으로 분석하는 방법론
- Soft Skill : 데이터 사이언티스트의 요구 역량 중 하나. 통찰력 있는 분석, 설득력 있는 전달, 다분야 간 협력 등을 지칭함
- SOM : 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화. 다시 말해 실제 공간의 입력변수가 가까이 있으면, 지도상에도 가까운 위치에 있게 됨
- Streaming : 인터넷에서 오디오, 비디오 등 멀티미디어 데이터를 실시간으로 송∙수신 할 수 있는 기술
- t-SNE : 데이터에서 지역 인접성을 보존하려고 시도하는 차원 축소 알고리즘. 비선형적이며 비결정적
- t-근접성 : l-다양성 뿐만 아니라 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮추는 기법
- Variety : 빅데이터의 주요 특징 중 하나. 틀에 짜인 듯 형식이 정해져 있는 정형 데이터뿐만 아니라 사진, 오디오, 영상, SNS 데이터, 위치 데이터 등 비정형 데이터도 포함함을 의미
- Velocity : 빅데이터의 주요 특징 중 하나. 데이터가 생성되는 속도도 매우 빠르며, 이를 처리하고 저장하거나 분석하는 속도 또한 매우 빠르게 이루어짐을 의미
- Volume : 빅데이터의 주요 특징 중 하나. 빅데이터의 가장 기본적인 특징으로, 저장되는 물리적 데이터의 양이 매우 많음을 의미
- 가명처리 : 식별 방지 기술 중 하나. 개인 식별이 가능한 데이터에 대하여 직접적으로 식별할 수 없는 다른 값으로 대체
- 감성분석 : 텍스트 문장을 분석할 때 문장에서 주관적인 감성을 나타내는 정보를 찾아내어 긍정, 부정, 중립의 성향을 분석하는 것. 문장에서 사용된 단어의 긍정과 부정 여부에 따라 긍정적인 단어가 얼마나 많은지를 파악하여 전체 문장의 긍정/부정 여부를 평가. 블로그, 트위터 등의 소셜 미디어를 분석하여 제품 및 브랜드에 대한 선호나 평판의 추이 변화를 파악할 때 이용, 오피니언 마이닝에 필수적인 분석 기술
- 개인정보보호법 : 데이터 3법 중 하나. 개인정보 관련 개념을 개인정보, 가명정보, 익명정보로 구분한 후 가명 정보, 익명 정보로 구분한 후 가명 정보를 통계 작성 연구, 공약적 기록 보존 목적으로 처리할 수 있도록 허용
- 경사하강법 : 매개변수 최적화 방법으로 가장 널리 알려진 방법으로 최적의 매개 변수 값을 찾는 방법
- 계통추출법 : 번호를 부여한 샘플을 나열하여 k개씩 n개의 구간으로 나누고 첫 구간(1, 2, ∙∙∙, k)에서 하나를 랜덤하게 출발점으로 정한 다음, 이후 그 점으로부터 매번 k번째 떨어진 간격에 위치하는 원소들을 표본으로 추출하는 방법
- 과대적합 : 모델이 학습데이터에는 너무 잘 맞지만 일반화가 떨어지는 현상
- 구간척도 : 측정 대상이 갖고 있는 속성의 양을 측정하며 결과가 숫자로 표현됨. 해당 속성이 전혀 없는 상태인 절대적인 원점이 존재하지 않음 (예 : 온도, 지수 등)
- 기능구조 : 빅데이터의 분석 조직 및 인력 중 한 구조. 일반적인 분석 수행 구조. 별도 분석 조직이 없고, 해당 업무 부서에서 분석 수행. 전사적 핵심 분석이 어려우며, 부서 현황 및 실적 통계 등 과거 실적에 국한된 분석 수행 가능성이 높음
- 나선형 모델 : 반복을 통해 점증적으로 개발하는 방법으로 처음 시도하는 프로젝트에 적용이 용이하지만 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있음
- 다차원 척도법 : 데이터 속에 잠재해 있는 패턴, 구조를 찾아내어 소수 차원의 공간에 기하학적으로 표현하는 객체 간 근접성을 시각화하는 통계 기법을 지칭함
- 단계적 방법 : 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 의해 기존 변수의 중요도가 약화되면 해당 변수를 제거하는 방식
- 단일표본 t-검정 : 단일 모집단에서 관심이 있는 연속형 변수의 평균값을 특정 기준값과 비교하고자 할 때 사용하는 검정방법
- 대응표본 t-검정 : 단일 모집단에 대해 두 번의 처리를 가했을 때, 두 개의 처리에 따른 평균의 차이를 비교하고자 할 때 사용하는 검정방법
- 더미변수 : 0 혹은 1의 값만 가지며, 어떤 특징에 해당하는지의 여부를 표현하는 변수
- 데이터 거버넌스 : 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영 조직 및 책임 등의 표준화된 관리체계를 수립하여 운영을 위한 프레임 워크 및 저장소를 구축하는 것을 말함
- 데이터 마스킹 : 식별 방지 기술 중 하나. 개인 식별 정보에 대하여 전체 또는 부분적으로 대체값(공백, '*', 노이즈 등)으로 변환
- 데이터 마이닝 : 대규모로 저장된 데이터 안에서 체계적, 자동적으로 통계적 규칙이나 패턴을 찾아내는 기법
- 데이터 범주화 : 식별 방지 기술 중 하나. 단일 식별 정보를 해당 그룹의 대표값으로 변환(범주화)하거나 구간 값으로 변환(범위화)하여 고유 정보 추적 및 식별 방지
- 데이터 삭제 : 식별 방지 기술 중 하나. 개인정보 식별이 가능한 특정 데이터 값을 삭제
- 데이터 웨어하우스 : 사용자의 의사결정 지원을 위해 데이터를 분석 가능한 형태로 저장한 중앙 저장소. 즉, 사용자의 의사 결정에 도움을 주기 위하여, 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스
- 독립표본 t-검정 : 두 개의 독립된 모집단의 평균을 비교하고자 할 때 사용하는 검정방법
- 드롭아웃 : 신경망 모델에서 일부 뉴런을 임의로 삭제하여 사용하지 않고 학습하는 방법
- 로짓변환 : 로지스틱 회귀분석에서 어떠한 일이 일어날 확률을 일어나지 않을 확률로 나누어 log를 취하고 이를 0~1의 값이 아닌 (-∞, +∞) 범위에서 선형함수를 시그모이드 함수로 변환하는 방법
- 리브-p-아웃 교차 검증 : 전체 데이터 N개에서 p개의 샘플을 선택하여 그것을 평가데이터로 모델 검증에 사용하고 나머지(N-p)개는 모델을 학습시키는 훈련데이터로 사용하는 방법
- 리브-원-아웃 교차 검증 : 전체 데이터 N개에서 1개 샘플만을 평가 데이터에 사용하고 나머지 (N-1)는 훈련데이터로 사용하는 과정을 N번 반복하는 K-폴드 검증과 동일한 기법
- 맵리듀스 : 하둡 클러스터의 데이터를 처리하기 위한 시스템으로 여러 노드에 테스크를 분배하는 방법
- 명목척도 : 측정 대상이 어느 집단에 속하는지 분류하는 경우에 사용되는 척도 (예 : 성별, 출생지, 직업)
- 모자이크 플롯 : 2차원 또는 3차원 교차표의 시각화 기법으로 범주형 다변량 데이터를 표현하는데 많이 사용되는 그래프. 전체 사각형 도형으로 나누고, 그 다음 다시 각 도형을 행 내 열의 빈도에 해당하는 직사각형 도형으로 나누어 표현
- 마이데이터 : 정보 주체가 자신의 데이터를 직접 내려받거나 본인 동의 하에 제3자에게 제공하여 활용하도록 지원하는 본인 정보 활용 사업
- 민감도 : 실제 참인 것 중에서 모델이 참이라고 예측한 비율. 참긍정률
- 반정형데이터 : 데이터 유형 중 하나. 정형화된 스키마를 가짐. 값과 형식에서 일관성이 없음. 메타데이터를 포함함. XML, HTML, 웹 로그, 알람, 시스템 로그, JSON, RSS, 센서 데이터 등이 있음
- 배깅 : 주어진 자료에서 여러개의 bootstrap 자료를 생성하고 각 bootstrap 자료에 예측 모형을 만든 후 최종 예측 모형을 만드는 방법
- 버블차트 : 산점도에서 데이터 값을 나타내는 점 또는 마크에 여러 가지 의미를 부여하여 확장된 차트
- 베이즈 정리 : 사후 확률로 사전 확률을 구할 수 있는 관계를 나타내는 정리
- 병합적 군집 : 계층적 군집 모델 중에서 군집 과정이 처음에 데이터셋의 모든 점들을 군집의 원점으로 시작해 유사한 클러스터끼리 합쳐가면서 원하는 클러스터의 개수가 될 때까지 진행하는 방식
- 부스팅 : 예측력이 약한 모형들을 결합하여 강한 예측 모형을 만드는 방법
- 분산 : 데이터포인트다 예측치들의 평균(기댓값)으로부터 얼마나 떨어져 있는지를 측정한 것
- 분산구조 : 빅데이터의 분석 조직 및 인력 중 한 구조. 분석조직 인력들을 현업 부서로 직접 배치하여 분석 업무 수행. 전사 차원의 우선순위 수행. 분석 결과에 따른 신속한 액션 가능. 베스트 프랙티스(best practice) 공유 가능. 업무가 과다하거나 이원화 가능성이 있으므로 부서 분석 업무와 역할 분담을 명확히 해야 함
- 불편성 : 점추정량의 조건 중 하나. 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 편의(차이)가 없다는 것
- 붓스트랩 : 모집단에서 추출한 표본에 대해서 다시 복원하여 표본을 여러번 추출하여 모델을 평가하거나 데이터의 분포를 파악하는 재표본추출 방법
- 비모수 통계 : 자료가 추출된 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시하는 검정 방법
- 비율척도 : 구간척도가 갖는 특성에 더해 절대적인 원점이 존재하며, 두 측정값의 비율이 의미가 있음. 숫자로 관측되는 일반적인 자료의 측정이 비율척도에 해당 (예 : 절대온도)
- 비정형데이터 : 데이터 유형 중 하나. 스키마가 없음. 소셜미디어(SNS), NoSQL, 웹 게시판, 텍스트, 이미지, 오디오, 비디오 등이 있음
- 빅데이터 : 통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터. 곧, 대용량의 자료. 다양한 형태의 데이터를 목적에 맞게 분석함으로써 해당 분야의 필요 지식을 추출하여 전략적 의사 결정에 활용하거나 문제 해결에 이용하는 제반 행위까지도 의미함
- 사후검정 : 분산분석의 결과 적어도 한 집단에서 평균의 차이가 있음이 통계적으로 증명되었을 경우, 어떤 집단들에 대해서 평균의 차이가 존재하는지 알아보기 위해 실시하는 분석
- 산점도 행렬 : 다변량 변수를 갖는 데이터에서 가능한 모든 변수 상에 대한 산점도들을 행렬 형태로 표현한 그래프
- 상향식 접근법 : 다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 모든 문제를 도출하는 일련의 과정
- 상향적 군집 : 계층적 군집 모델 중에서 군집 과정이 처음에 데이터셋의 모든 점들을 군집의 원점으로 시작해 유사한 클러스터끼리 합쳐가면서 원하는 클러스터의 개수가 될 때까지 진행하는 방식
- 선형 판별 분석 : PCA와 유사하게 데이터를 저차원 공간에 투영해 차원을 축소하는 방법
- 소셜 네트워크 분석 : 개인과 집단들 간의 관계를 노드와 링크로 모델링하고 위상 구조와 확산 및 진화과정을 계량적으로 분석하는 방법
- 소프트맥스 : 신경망 모형에서 표준화 지수 함수로 불리며, 출력값 z 가 여러개로 주어지고, 목표치가 다범주인 경우 각 범주에 속할 사후 확률을 제공하여 출력노드에 주로 사용되는 함수
- 순서척도 : 측정 대상이 특성의 서열관계를 관측하는 척도로 선택사항이 일정한 순서로 되어 있음 (예 : 선호도, 학력, 연령대 등)
- 스쿱 : 커넥터를 사용하여 관계형 데이터베이스와 하둡 간 데이터를 수집하고 전송하는 기술
- 스크래핑 : 인터넷 웹 사이트에 노출되는 내용 중 특정 정보만을 추출하고, 추출과 관련된 모든 동작을 자동으로 수행하는 기술
- 신용정보법 : 데이터 3법 중 하나. 가명 조치한 개인 신용 정보로서 가명 정보 개념을 도입해 빅데이터 분석 및 이용의 법적 근거를 명확히 마련하고, 가명정보는 통게 작성, 연구, 공익적 기록 보존 등을 위해 신용 정보 주체의 동의 없이도 이용, 제공할 수 있다는 내용을 담고 있음
- 실루엣 : 군집분석의 품질을 정량적으로 평가하는 대표적인 지표. 군집 내의 데이터 응집도와 군집간 분리도를 계산하여 군집 내의 데이터의 거리가 짧을수록, 군집 간 거리가 멀수록 값이 커지며 완벽한 분리일 경우 1의 값을 가지는 지표
- 실루엣 기법 : 한 클러스터 안에서 데이터들이 다른 클러스터와 비교해 얼마나 비슷한가를 나타내는 것으로 -1과 1사이의 값을 가짐
- 암묵지 : 학습과 경영을 통해 개인에게 체화되어 있지만, 겉으로 드러나 있지 않은 지식. 사회적으로 중요하지만 다른 사람에게 공유되기 어려움. 공통화 및 내면화와 관련됨
- 엘보우 기법 : 군집분석에서 군집 수를 결정하는 방법으로 군집 수에 따라 군집 내 총 제곱합을 플로팅하여 팔꿈치의 위치를 일반적으로 적절한 군집 수로 선택하는 방법
- 오류율 : 전체 데이터 수에서 잘못 분류한 데이터 수의 비율. 실제 분류 범주를 잘못 판정한 비율. 1-정분류율
- 오피니언 마이닝 : 어떤 사안, 인물, 이슈, 이벤트에 대한 사람들의 의견, 평가, 태도, 감정 등을 분석하는 것을 말하며, 문장분석에서는 사실과 의견을 구분해 의견을 뽑아내서 긍정과 부정으로 나누고 그 강도를 측정함
- 와드연결법 : 군집 내 편차들의 제곱합을 고려한 방법이며, 군집 간 정보의 손실을 최소화하기 위해 군집화를 진행
- 요약변수 : 수집된 정보를 분석에 맞게 종합한 변수
- 요인분석 : 여러 개의 변수들로 이루어진 데이터에서 변수들 간의 상관관계를 고려하여 서로 유사한 변수들을 묶어 새로운 잠재요인을 추출해내는 분석 방법
- 워드클라우드 : 문서의 키워드, 개념 등을 직관적으로 파악할 수 있도록 핵심 단어를 시각적으로 돋보이게 하는 기법. 특정 문서 내에서 많이 언급되는 단어를 크게 표현하고 색을 달리 나타내어 텍스트 데이터의 주요 키워드들을 한 눈에 들어올 수 있게 하는 기법. 주로 방대한 양의 텍스트 정보를 다루는 비정형 빅데이터를 분석할 때 텍스트 데이터의 특징을 도출하기 위해서 활용
- 웹 마이닝 : 인터넷 이용 과정에서 생성되는 웹 로그 정보나 검색어로부터 유용한 정보를 추출하는 웹을 대상으로 한 데이터 마이닝
- 위세중심성 : 자신의 연결정도 중심성으로부터 발생하는 영향력과 자신과 연결된 타인의 영향력을 합하여 결정. 연결된 노드의 중요성에 가중치를 둬 노드의 중심성을 측정하는 방법인 보나시치 권력지수가 있음
- 유의확률 : 귀무가설이 참이라는 가정 아래 얻어진 검정 통계량 값에 대응하여 구해진 확률이며, 이를 통해 귀무가설을 얼마나 지지하는지를 나타낸 확률
- 이상치 : 의도하지 않게 잘못 입력한 경우나 의도하게 입력되었으나 분석 목적에 부합하지 않아 제거해야 하는 경우 등 잘못된 데이터도 있지만, 의도하지 않은 현상이지만 분석에 포함해야 하는 경우와 의도된 이상값인 경우까지 다양함
- 인공지능 : 인간의 학습 능력, 추론 능력, 지각 능력, 자연 언어의 이해 능력 등을 컴퓨터 프로그램으로 실현한 기술. 컴퓨터가 인간과 같이 생각, 학습하고 판단하는 논리적인 방식을 사용하는 인간 지능을 본뜬 고급 컴퓨터 프로그램
- 인포그래픽 : 중요한 핵심정보를 하나의 그래픽으로 표현해 사람들이 손쉽게 해당 정보를 이해할 수 있도록 만든 그래픽 메시지
- 일치성 : 점추정량의 조건 중 하나. 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다는 것
- 자기회귀모형 : 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형. 백색 잡음의 현재값과 자기 자신의 과거값의 선형 가중합으로 이루어진 정상 확률 모형
- 재현율 : 실제 참인 것 중에서 모델이 참이라고 예측한 비율. 참긍정률
- 전진선택법 : 절편만 있는 상수모형에서 시작하여 중요하다고 생각되는 설명변수부터 차례로 모형에 추가하는 방식
- 점추정 : 확률표본의 정보를 이용하여 모수에 대한 특정값을 지정하는 것. 즉, 모수가 특정한 값일 것이라고 선언하는 것
- 정밀도 : 모델이 참이라고 분류한 것 중에서 실제 참인 것의 비율. 분석 모델의 결과가 정답과 일치하는 경우의 비율
- 정보통신망법 : 데이터 3법 중 하나. 이 법에 규정된 개인정보보호 관련 사항을 개인정보보호법으로 이관한 바 있음
- 정분류율 : 전체 데이터 수에서 올바르게 분류한 데이터 수의 비율. 실제 분류 범주를 정확하게 판정한 비율
- 정형데이터 : 데이터 유형 중 하나. 정형화된 스키마를 가짐. 일관성 있는 값과 형식을 가짐. 관계형 데이터베이스(RDB), 스프레드시트, 파일, 통계 등이 있음
- 제1종 오류 : 귀무가설 H0이 옳은데도 불구하고 H0를 기각하는 오류
- 제2종 오류 : 귀무가설 H0가 옳지 않은데도 불구하고 H0를 채택하는 오류
- 주성분 분석 : 분석변수들을 선형적으로 결합하여 데이터를 가장 잘 표현할 수 있는 축을 찾아내고, 그 축을 중심으로 데이터를 차원 축소해서 표현해주는 기법
- 중심극한정리 : 모집단의 분포가 어떤 분포를 따르는지에 관계 없이 표본의 개수 n이 커질수록 표본 평균의 분포가 정규분포에 가까워지는 현상
- 중앙값 : 관측값의 크기 순서를 이용하여 자료의 중심을 측정하는 통계량으로 자료를 크기 순서로 정리했을 때 가운데에 위치하는 관측값
- 지니지수 : 노드의 불순도를 나타내는 값
- 집중구조 : 빅데이터의 분석 조직 및 인력 중 한 구조. 전사 분석업무를 분석 전담조직에 담당. 전략적 중요도에 따라 분석 조직이 우선순위를 정해서 진행 가능. 현업 업무부서의 분석업무와 이중화∙이원화 가능성이 높음
- 총계처리 : 식별 방지 기술 중 하나. 개인정보 전체 혹은 부분에 대하여 통계값을 적용하여 특정 개인을 판단할 수 없도록 함
- 충족성 : 점추정량의 조건 중 하나. 추정량은 모수에 대하여 모든 정보를 제공한다는 것
- 층화처리 : 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법. 즉, 모집단을 서로 겹치지 않는 층들로 나누고 각 층에서 단순확률표본을 추출하는 방법
- 카토그램 : 지역의 값을 표현하기 위해 지리적 형상 크기를 조절하여 재구성된 지도와 같이 왜곡되고 비뚤어진 화면으로 나타낸 플롯
- 코퍼스 : 데이터의 정제, 통합, 선택, 변환의 과정을 거친 후의 구조화된 텍스트 데이터로, 더 이상 추가적인 절차 없이 데이터 마이닝 알고리즘 실험에 활용될 수 있는 상태. R의 텍스트 마이닝 패키지인 'tm'에서 문서를 관리하는 기본 구조이며, 텍스트 문서들의 집합을 의미함
- 크롤링 : SNS, 웹, 뉴스 정보 등 인터넷 상에서 제공되는 웹 문서에 대한 정보를 수집하는 기술
- 텍스트 마이닝 : 비정형 텍스트에서 유용한 정보를 추출하거나 숨겨진 의미 있는 정보를 발견하는 것
- 특이값 분해 : 선형대수의 일반적인 기법이며, 실수 공간에서 정의된 m × n 차원의 행렬에서 특이값을 추출하고 이를 활용해 데이터의 차원을 축소하는 방법
- 특이도 : 실제 거짓인 경우를 거짓으로 분류하여 판정한 비율. 참 부정률
- 파생변수 : 사용자가 특정 함수에 의해 값을 만들어 의미를 부여한 변수
- 편향 : 예측값과 실제값의 차이를 의미하는 것으로, 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차를 의미
- 포아송 분포 : 단위 시간과 단위 공간 내에서 발생하는 사건의 발생 횟수에 대한 확률 분포
- 폭포수 모델 : 전통적인 모델로서 단계를 순차적으로 진행하는 방법. 이전 단계가 완료되어야 다음 단계로 진행될 수 있으며, 이전 단계로 돌아가는 것이 어려움
- 프로토타입 모델 : 폭포수 모델의 단점을 보완하기 위해 시스템을 개발해 나가는 접근 방식으로 고객의 요구를 완전하게 이해하고 있지 못하거나 완벽한 요구 분석의 어려움을 해결하기 위해 일부분을 우선 개발하여 사용자에게 제공하여 시험 사용 후 사용자의 요구를 분석하거나 요구 정당성을 점검, 성능을 평가하여 그 결과를 통한 개선 작업을 시행하는 모델
- 피처 선택 : 여러 변수들 가운데서 데이터의 특징을 가장 잘 나타내는 주요 피처만 선택하는 것
- 피처 추출 : 기존 변수들 간의 관계를 파악하여 이들을 잘 표현할 수 있도록 선형 혹은 비선형 결합을 활용해 새로 피처를 추출하는 것. 기존의 변수들을 함축하는 피처로 변수들을 요약하여 줄이는 방법
- 하둡 : 대량의 자료를 처리할 수 있는 대형 컴퓨터 클러스터에서 동작하고, 분산 응용 프로그램을 지원하는 오픈소스 자바 소프트웨어 프레임워크
- 하향식 접근법 : 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 분석 과제 발굴 방식
- 할당표본추출 : 인구 통계학적 특성이나 거주지와 같은 모집단의 속성을 미리 파악할 수 있을 때 각 속성의 구성 비율을 고려해 표본을 추출하는 방식으로 주로 선거에 관련된 조사나 일반적인 여론 조사에서 많이 사용
- 향상도 곡선 : 랜덤모델과 비교하여 해당 분류 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프로 '이익도표'라고도 함
- 형식지 : 문서나 메뉴얼처럼 형상화된 지식. 전달과 공유가 용이함. 표출화, 연결화와 관련됨
- 홀드아웃 교차검증 : 모델 학습에서 훈련 데이터 셋은 다시 5:5 또는 7:3정도의 비율로 훈련 데이터와 평가 데이터(검증 데이터)로 분리하고, 검증데이터에 대한 성능을 높이는 작업을 학습에서 진행. 그리고 초기에 분할해 둔 평가 데이터를 이용하여 최종 성능을 추정
- 효율성 : 점추정량의 조건 중 하나. 추정량의 분산이 작을수록 좋다는 것.
- 후진제거법 : 모든 독립변수를 포함한 모형에서 출발하여 종속변수에 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 제거할 변수가 없을 때의 모형을 선택하는 방식
- 히스토그램 : 가로축에 정량적인 값으로 표현된 특정한 간격을 표시하고 세로축에 각 구간에 대응하는 값의 빈도를 막대의 높이로 표현하는 분포 그래프
입력: 2023.11.19 18:45
수정: 2023.11.22 13:10
'▶ 자연과학 > ▷ 컴퓨터과학' 카테고리의 다른 글
【빅데이터분석기사】 파이썬 실기 필수 암기 및 예제 (1) | 2024.06.02 |
---|---|
【빅데이터분석기사】 R 실기 필수 암기 및 예제 (0) | 2023.11.28 |
【Excel】 Excel 단축키 모음 (0) | 2021.09.09 |
【컴퓨터 활용】 Excel 목차 (0) | 2018.10.05 |
【한글】 자주 쓰는 한글 단축키 (0) | 2018.10.03 |
최근댓글