본문 바로가기

전체 글38

#Bagging과 Random Forest # Ensemble(앙상블)- 여러가지 모델을 함께 사용하여 더 강건한 추론을 하는 방법이다.- 모델 하나가 decision tree가 된다. 최종 앙상블 모델이 데이터의 다양한 특성을 고려한다.# Bagging- Bootstrap을 이용한 앙상블 방법이다.- 배깅에서 랜덤성을 부여하여 각각의 모델의 데이터의 구성이 다를 수 있다.- outliar가 많을시 배깅뿐만아니라 어떤 모델로도 좋은 효과를 볼 수 없다.- 원본데이터에서 복원 추출로 해야 종단노드에서 기존의 원본데이터를 잘 분류할 수 있다. # Random Forest- 조건을 나눌때 feature를 랜덤으로 일부만 가지고 사용하는것이 Bagging과의 큰 차이점이 있다.- Random Forest를 Greedy algorithm만을 사용했을 때.. 2024. 5. 27.
#Decision Tree # decision tree- 지도학습 알고리즘 중 하나이며, 학습데이터를 이용하여 데이터를 트리형태로 분류.- 종단 노드를 leaf node로도 불리기도 함.- 처음부터 노드분할시 하나의 노드에  하나의 클래스에 해당하는 학습 데이터를 분류할 수 없다.# 노드분할- 절댓값은 데이터의 개수- information Gain은 음수가 될 수 없다. - 가지를 얼마나 쳤는지가 깊이에 해당. 실제로 노드 분할 방벙에서는 최대 깊이 도달이 많이 쓰임-# 회귀를 위한 Decision Tree- MSE도 information gain과 유사한 컨셉- label이 데이터가 실수로 바뀜- 실제로 Decision Tree는 회귀모델에서는 잘 안쓰이는 이유는 데이터의 추론결과의 가짓수가 종단노드의 갯수와 같기 때문이다. 기.. 2024. 5. 27.
#Regularization(정규화) # Underfitting과 Overfitting- Train데이터만 보고 얼마나 과소적합, 과적합되어있는지 알 수 없다. underfitting에서 적절로 가려면 모델을 복잡하게 만든다. 일반적으로는 적절과 과적합사이에서 최적화를 많이 하는편이다.- 테스트 데이터가 최소가 되는 지점에서 모델을 사용해야 한다. # L1, L2 Regularization- L2는 제곱, L1은 절댓값으로 되어있고, 손실함수의 W값을 0으로 가깝게 만드는것이 목적이다.- L1 + L2뿐만 아니라 L1과 L2의 값을 줄일때에는 λ(lambda)값을 조정한다.- β값이 0보다 크거나 같아야하며, 음수일때는 -무한대로 본래의 목적을 잃고 엉뚱하게 진행되기에 음수가 되면 안된다.- 기하학적으로 L2는 부드럽게 진행, L1은 직관적.. 2024. 5. 24.
Multi-Class Classification Model # Confusion Matrix(혼동 행렬)- Ci는 실제 정답 클래스, Cj는 모델이 주장하는 클래스- 클래스가 여러개 일경우도 Accuracy, Precision, Recall도 다음과 같이 계산한다  # Macro-Acerage vs. Micro-Average- Macro-Average는 각 클래스에 대해 성능을 측정한 뒤(수치를 구한뒤) 평균을 계산하여 클래스의 갯수에 영향을 미치진 않지만, Micro-Average는 모든 클래스에 대한 결과를 취합하여 Confusion matrix를 만들어 평가하기에 적은 갯수의 클래스는 영향을 적게 준다. 2024. 5. 24.
Binary Classification Model(이진 분류 모델) # 평가 지표 선택의 중요성- 검사 모델의 잘못된 예측으로 정확도가 왜곡되어 신뢰성이 낮아질 수 있는 상황이 발생 # Accuracy(정확도)와 Precision(정밀도) 그리고 Recall(재현율)- 정확도 : 모델과 실제 전체(Positive, Negative) 중에 맞춘(True) 예측- 정밀도 : 모델의 Positive입장에서 실제 양성의 비율 (ex. 암환자라고 진단된 상태에서 실제 암환자의 비율)- 재현율 : 실제 양성의 입장에서 모델의 Positive한 비율 (ex. 실제 암환자의 수에서 진단된 암환자의 비율)- 데이터의 형태에 따라 중요한 평가항목은 다르지만 위 암환자 예시일때는 정밀도가 낮을수록 재현율이 높을수록 낫다. # 분류 모델의 출력 분포- 모델의 Positive와 Negative.. 2024. 5. 23.
Dimension Reduction(차원 축소) # dimension reduction- 차원 축소(Dimension Reduction)는 고차원 데이터를 더 낮은 차원으로 변환하는 과정이다. 이 과정은 데이터의 중요한 특성을 유지하면서도 데이터의 복잡성을 줄여준다. 차원 축소는 머신러닝에서 데이터 분석과 모델링의 효율성을 높이기 위해 자주 사용된다.- 차원 축소를 하는 이유? 딥러닝에서는 네트워크쪽에서 판단하여 feature 수(dimension)를 줄일 수 있으나, 사람의 입장에서 데이터를 분석하고 이해해야되는 과정이 필요할때는 머신러닝에서 차원 축소를 통하여 고차원의 데이터를 저차원의 데이터로 projection(투영)하는 기술이 필요하다.- 딥러닝에서도 중간에 고차원에서 우리가 이해하긴 어렵더라도 근사할 수 있는 방법이 차원축소가 되기도 한다... 2024. 5. 22.