-
[심화] 11. 데이터 전처리 목표 및 필요기술교육/AI-X 제품 및 서비스 개발 교육 2022. 12. 20. 05:45728x90
데이터 전처리란?
특정 분석에 적합하게 데이터를 가공하는 작업
데이터 전처리 목표
AIoT프로세스와 데이터 전처리
데이터 전처리는 데이터 구축 바로 다음에 위치하며 앞서 구성한 데이터셋을 기반으로 데이터를 가공하여 인공지능 생성에 적합한 데이터를 만드는 단계
인공지능을 위해서도 전처리를 하고 데이터 내에서 의미를 이끌어내는 데이터마이닝작업에서도 사용
데이터 전처리를 해야하는 이유
데이터를 분석하고 처리하여 적합한 형태로 만드는 과정
데이터 분석, 데이터 마이니이, 머신러닝, 딥러닝 등에 많이 쓰임
일반적으로 수집한 데이터는 비어있는 부분이 있거나 바로 사용하기 적합하지 않은 경우가 많기 때문에 전처리 필수
데이터 자체 품질이 낮다면 아무리 좋은 도구나 분석기법을 사용해도 좋은결과를 얻을 수 없음
->데이터 자체 품질이 높은 데이터셋을 모으는 게 중요
데이터 전처리 목표와 ITO
데이터 전처리 필요기술
데이터 전처리
데이터 전처리는 데이터 정제, 데이터 통합, 데이터 정리, 데이터 변환과 같은 주요 작업들로 이루어짐
데이터 정제
데이터 정제(Data Cleaning)란 결측값을(Missing Value)을 채우거나, 잡음값(Noisy Data)완화 그리고 이상점(Outlier)을 발견하여 이를 제거하고 불일치를 해결하는 과정
- 데이터셋 확인 : 데이터셋에 대한 변수확인과 로우 데이터를 확인하는 단계
- 결측값 처리 : 결측값 삭제, 다른값으로 대체, 예측값 삽입 등
- 결측값이 있는 상태로 모델을 만들게 될 경우 변수 간의 관계가 왜곡되어 모델의 정확성이 떨어지게 됨
- 이상값 처리 : 이상값 단순 삭제, 다른값으로 대체, 변수화, 리샘플링, 케이스를 분리하여 분석하는 등
- 이상값?데이터또는 샘플과 동 떨어진 값, 모델을 왜곡시킬 수 있는 값
- 피처 공학 : 기존의 변수를 사용해서 데이터에 정보를 추가하는 과정
- 새로 관측치나 변수를 추가하지 않고 기존의 데이터를 보다 유용하게 만드는 법
- ex)스케일링, 비닝, 더미 변환 등
데이터 통합
다수의 근원지로부터 얻은 데이터들을 합쳐서 표현하는 것
데이터 정리
크기는 더 작지만, 분석결과는 동일한 결과로 표현한 것
데이터 변환
마이닝 알고리즘의 효율성을 극대화시키기 위해 데이터에 임의의 변형을 가한 것
탐색적 데이터 분석
데이터를 이해하기 위해 데이터의 특징을 찾고, 숨겨진 패턴을 발견하는 과정
- 원시 데이터 수집 방법 이해
- 데이터의 다양한 특성 확인
- 개별 기능 및 상호관계에 대한 인식
- 데이터에 이상,이상치,결측값,인적오류 등이 있는지 확인하고 유효성을 검사
- 비즈니스에 대한 유용한 정보를 제공할 수 있는 통찰력 추출
- 비즈니스 문제를 더 잘 이해할 수 있도록 데이터에 숨겨진 패턴 발견
- 데이터가 예상한 방식으로 생성되었는지 확인
'교육 > AI-X 제품 및 서비스 개발 교육' 카테고리의 다른 글
[심화] 13. 인공지능 생성 목표 및 필요기술 (0) 2022.12.20 [심화] 12. 데이터 전처리 케이스 스터디 (0) 2022.12.20 [심화] 10. 데이터 구축 케이스 스터디 (0) 2022.12.20 [심화] 09. 데이터 구축 목표 및 필요기술 (0) 2022.12.19 [심화] 08. 네트워크 구축 케이스 스터디 (0) 2022.12.19