2025.09 ~ 2026.02

[BDAI] 학습자 수료 예측 AI 경진대회

Role & Team

AI 알고리즘 개발

개인

Tech Stack

Python, Pandas, Scikit-learn, Random Forest

Overview

학습자의 수료 여부를 예측하는 AI 알고리즘 개발. 데이콘 x BDA 제 2회 학습자 수료 예측 AI 경진대회

🏆 대회 개요

01. 문제 정의

학회 수강생의 수료 여부를 예측하는 이진 분류 문제.

02. 평가 지표

F1 Score를 기준으로 평가. 불균형 데이터에서 정밀도와 재현율의 균형을 동시에 고려하는 지표입니다.

03. 데이터 규모

학습 데이터 748건 / 테스트 데이터 814건. 수강생의 배경, 전공, 관심 직무 등 수십 개의 범주형·수치형 피처로 구성됩니다.

⚙️ ML Pipeline

01

Data Loading

train.csv / test.csv

02

Feature Engineering

IT전공여부, Freq Encoding 등 파생변수 생성

03

Preprocessing

결측치 80% 이상 컬럼 제거, 인코딩

04

Feature Selection

RF Importance 기반 Top 40 피처 선별

05

5-Fold CV + Predict

Hybrid Threshold 최적화 및 제출

💡 Key Contributions

도메인 기반 Feature Engineering

단순 원핫 인코딩에 그치지 않고, IT/Data 전공 여부 파생 변수를 직접 설계했습니다. 또한 학교명처럼 카디널리티가 높은 범주형 컬럼에 Frequency Encoding을 적용하여 트리 모델이 효과적으로 학습할 수 있도록 처리했습니다.

RandomForest Feature Importance 기반 피처 선별

임시 RandomForest 모델을 학습시켜 feature_importances_를 산출하고 상위 40개 피처만 최종 모델에 투입했습니다.

📊 Results

CV Average F1

0.2833

5-Fold 평균 베이스라인

Final F1 Score

0.4615

Hybrid Threshold 적용 후

Improvement

+62.9%

임계값 전략으로 F1 향상

Hybrid Threshold 결정 과정

① CV Best Threshold0.31
② Ratio Best Threshold0.46
🚀 Final Threshold (평균)0.3854