부스트캠프 AI 11주차(Day-74) 회고록, DKT 대회 - (11) Feature Engineering

December 1, 2022 1 minute read

Day 74

DKT 대회 Feature Engineering

Feature Engineering

LightGBM 대조군

Default Featue

KnowledgeTag: 원본 데이터의 KnowledgeTag
user_correct_answer: 유저의 현시점 누적 정답수
user_total_answer: 유저의 현시점 누적 문항수
user_acc: 유저의 현시점 정답률
test_mean: 테스트별 평균 정답률
test_sum: 테스트별 정답자 총합
test_std: 테스트별 표준편차
tag_mean: 태그별 평균 정답률
tag_sum: 태그별 정답자 총합
tag_std: 태그별 표준편차

Training until validation scores don't improve for 500 rounds
[100]	training's binary_logloss: 0.559427	valid_1's binary_logloss: 0.681014
[200]	training's binary_logloss: 0.556528	valid_1's binary_logloss: 0.680677
[300]	training's binary_logloss: 0.554283	valid_1's binary_logloss: 0.681167
[400]	training's binary_logloss: 0.552284	valid_1's binary_logloss: 0.681011
[500]	training's binary_logloss: 0.550545	valid_1's binary_logloss: 0.681547
[600]	training's binary_logloss: 0.548883	valid_1's binary_logloss: 0.681466
Early stopping, best iteration is:
[123]	training's binary_logloss: 0.558699	valid_1's binary_logloss: 0.680181
VALID AUC : 0.6904581594116477 ACC : 0.6098654708520179

assessmentItemID 별 평균, 분산 , 총합 (assess_mean, assess_std, assess_sum)

assess_mean: 문항별 평균 정답률
assess_std: 문항별 정답자 총합
assess_sum: 문항별 표준표차

assessment ID 처음 세자리 카테고리화 후 평균, 분산 ,총합 (prefix, prefix_mean, prefix_std, prefix_sum)

prefix: 문항 대분류 A’XXX’0000000
prefix_mean: 대분류 별 정답률
prefix_std: 대분류 별 표준편차
prefix_sum: 대분류 별 정답자 총합

weekday, month, day, hour 별 mean, std 추가

weekday: 문제를 푼 요일
weekday_mean: 요일별 평균 정답률
weekday_std: 요일별 표준편차
month: 문제를 푼 월
month_mean: 월별 평균 정답률
month_std: 월별 표준편차
day: 문제를 푼 일
day_mean: 일별 평균 정답률
day_std: 일별 표준편차
hour: 문제를 푼 시간
hour_mean: 시간별 평균 정답률
hour_std: 시간별 표준편차

문제별 풀이에 걸린시간 (이상치는 정상치들의 전체 평균 풀이시간으로 대체)

elapsedTime: 문항별 풀이에 걸린 시간

[LightGBM] [Info] Start training from score 0.642855
Training until validation scores don't improve for 100 rounds
[100]	training's binary_logloss: 0.477544	valid_1's binary_logloss: 0.593096
[200]	training's binary_logloss: 0.474668	valid_1's binary_logloss: 0.593779
Early stopping, best iteration is:
[114]	training's binary_logloss: 0.477068	valid_1's binary_logloss: 0.592838
VALID AUC : 0.7473235937189425 ACC : 0.680119581464873

Share on

Twitter Facebook LinkedIn

Kim Boseong

부스트캠프 AI 11주차(Day-74) 회고록, DKT 대회 - (11) Feature Engineering

Day 74

DKT 대회 Feature Engineering

Feature Engineering

LightGBM 대조군

assessmentItemID 별 평균, 분산 , 총합 (assess_mean, assess_std, assess_sum)

assessment ID 처음 세자리 카테고리화 후 평균, 분산 ,총합 (prefix, prefix_mean, prefix_std, prefix_sum)

weekday, month, day, hour 별 mean, std 추가

문제별 풀이에 걸린시간 (이상치는 정상치들의 전체 평균 풀이시간으로 대체)

Share on

Leave a comment

You may also enjoy

Pandas와 클라우드 DB 데이터 읽기 속도 비교

numpy 자료형과 Pydantic에 의해 발생했던 버그

Variational AutoEncoder 정리 - (2) Variational AutoEncoder

부스트캠프 AI 13주차(Day-89) Movie Recommendation - (3) 베이스라인 분석