20240830 두 번째 2학기 금요일 전익진 교수님 수업
[비지도 학습 / 지도 학습 개념정리]
*학습을 한다 = 트레이닝을 한다.
[k fold의 문제점]
특정한 비율로 나누게 되면 다시 검증모델로 들어감.
[앙상블 k fold 모델]
정교하게 만들지 못했던 문제점을 극복해보려고 계층적 문제 시각으로 전환
> 계층적 교차 검증으로 구분. 얼마나 분포하고 산포하느냐
>a,b,c abd acd abcd 변화가 없고 동일한 데이터가 반복적으로 들어온다는 단점이 있다.
주어진 공식에 의해 피팅(?)을 하지 않고 분리를 정교하게 해보자는 목적 하에 이뤄짐
> 앙상블 모델은 data set이나 모델을 여럿 쓴다.
> 집합
SVM과 연관지어서 개념 이해할 것. SVM에서 S1, S2, S3 최종적으로 모델이 3개인데 뭘 선택할거야? 할 때 K-fold는 평균 값을 가져간다. k-fold를 선택하는 순간 트레이닝 셋은 자동으로 나눠진다. 테스트 구간이 자동으로 나눠지는데, 순차적으로 테스트 값을 넣어본다. > k-fold 순차개념도 익혀야한다. 순차모델 이해
[배깅, 그 자체가 분할] bagging
앙상블은 분할하려는 것이다. 배깅은 모델을 확정짓는 것이다. 어마무시한 확정. 앙상블의 기본원리.
k fold정확도 거의 비슷하게 나옴 문제점을 극복해보기 위해 나온 배깅 모델
개체수가 적음 > k –fold의 문제점
bagging 복원추출 n 개의 개체를 복원 추출
bagging 분할 모델을 사용해서 나온 모델이 부스트랭 배깅모델
D.T , L.F 추출을 랜덤하게 하여서 랜덤 포레스트
앙상블 모델. 데이터셋을 나누니까 모델이 생긴다.
k-fold란 무엇인가? 어떤 것이 k-fold인가?
샘플링에 주사위 이야기를 한 이유?!
[딥러닝/머신러닝 차이]
[k-means]
k 개 : 데이터의 분할갯수 > data set을 여러 번 분할하면 여러 번 돈다. 검증결과를 평균하여 최종검증 결과를 도출하는 방식.
k means는 군집의 갯수를 나타냄.
딥러닝이던 머신러닝이던 예측부터 진행.
예측 분류
군집 패턴
군집은 분류에 속하니 예측과 분류만 솎아 낸 후 남은 것은 패턴.
[분류는 피타고라스 삼각형으로 거리 계산]
[비복원 추출, 복원 추출]
비복원추출은 값을 변경하겠다, 복원하지 않겠다, 쓰고 버리겠다 이 의미이다.
[ 교차검증을 하는 이유 ] L.R 리니어 리그레이션
SVM은 LR이 파생된 것. 비지도 학습의 대표적인 예) K MEANS
단일모델이라도 주어진 데이터셋을 변형해서 나누어 돌리면 ??
(데이터셋을 다양하고 다르게 전달하면 모델의 결과값은 유의미하게 도출된다.)
주어진 하나의 데이터셋을 어떻게 복수의 모델을 생성할까??
여러 개로 나눈 만큼 모델이 여러 번 돌아야 한다. > 데이터 셋을 정교하게 분리해서 학습할 수 있도록 주는 것이 k-fold,
*fold out 도 있고 종류에 대해서 암기가 필요하다(개념숙지)
>>어떻게 나눌까? 성찰해보기
단일 모델 대 리그레이션 3개 모델 - 이 비교가 앙상블 k fold와 연관있음
SVM은 단일 모델 중에서 최강자. 학습을 해야하고 예측이 최종 목표
데이터학습에서 머신러닝은 전익진 교수님께서, 딥러닝은 최근의 교수님께서 맡아서 하신다.
구조방정식은 y값이 2개 나오는 것이다. 함수식을 여러 개로 보면 데이터는 하나니까 결국 y값을 예측하는 x값은 하나이다. x는 같으니 별 의미없다. 그래서 여러 개로 어떻게 data set을 잘 활용할 수 있을지 고민하는 것이 이득이다.
[이상치, 결측치]
다음시간
- fold 의 코드
- 피벗
- 윈도우 함수
- 계층질의
- 복합질의
[과제]
vn 셈플에이터 아이리스나 사이키런에 보면 데이터셋이 굉장이 많다. 위스콘신 암센터데이터 등 중 선택하여 선택하여 k fold로 코드 짜보자.
케이폴드 의 이미지값. *파라미터는 우리나라 말로 변수. 변수 <독립변수 종속변수>
svn : 숙제. 사이클론에서 기본 데이터 셋이 존재한다. 데이터 셋을 한 선택한다. 앙상블.. 다음주 금요일까지