[BDAI] 학습자 수료 예측 AI 경진대회
Role & Team
AI 알고리즘 개발
개인
Tech Stack
Python, Pandas, Scikit-learn, Random Forest
Overview
학습자의 수료 여부를 예측하는 AI 알고리즘 개발. 데이콘 x BDA 제 2회 학습자 수료 예측 AI 경진대회
🏆 대회 개요
01. 문제 정의
학회 수강생의 수료 여부를 예측하는 이진 분류 문제.
02. 평가 지표
F1 Score를 기준으로 평가. 불균형 데이터에서 정밀도와 재현율의 균형을 동시에 고려하는 지표입니다.
03. 데이터 규모
학습 데이터 748건 / 테스트 데이터 814건. 수강생의 배경, 전공, 관심 직무 등 수십 개의 범주형·수치형 피처로 구성됩니다.
⚙️ ML Pipeline
Data Loading
train.csv / test.csv
Feature Engineering
IT전공여부, Freq Encoding 등 파생변수 생성
Preprocessing
결측치 80% 이상 컬럼 제거, 인코딩
Feature Selection
RF Importance 기반 Top 40 피처 선별
5-Fold CV + Predict
Hybrid Threshold 최적화 및 제출
💡 Key Contributions
도메인 기반 Feature Engineering
단순 원핫 인코딩에 그치지 않고, IT/Data 전공 여부 파생 변수를 직접 설계했습니다. 또한 학교명처럼 카디널리티가 높은 범주형 컬럼에 Frequency Encoding을 적용하여 트리 모델이 효과적으로 학습할 수 있도록 처리했습니다.
RandomForest Feature Importance 기반 피처 선별
임시 RandomForest 모델을 학습시켜 feature_importances_를 산출하고 상위 40개 피처만 최종 모델에 투입했습니다.
📊 Results
CV Average F1
0.2833
5-Fold 평균 베이스라인
Final F1 Score
0.4615
Hybrid Threshold 적용 후
Improvement
+62.9%
임계값 전략으로 F1 향상