Kim Boseong

개발 학습 블로그입니다.

Toggle Categories

📂 전체 글 수 229 개
Coding Test
- BOJ (136)
- Programmers (31)
AI
- BoostCamp AI 4기 (34)
WEB
- HTTP (2)
- Vanilla JS (10)
CS
- Algorithm (3)
- CS (3)
- Data Structure (4)
- OS (1)
etc
- Python (1)
- Termux (3)
- 잡것들 (1)

부스트캠프 AI 9주차(Day-58) 회고록, DKT 대회 - (2) DKT EDA

November 15, 2022 1 minute read

Day 58

DKT Exploratory Data Analysis

입력 데이터와 해결 해야할 문제와의 직관이나 연관성을 얻기 위해 데이터 분석을 진행한다. EDA를 통해 문제 정의를 더 구체화 하거나 실마리를 얻을 수 있다.

i-Scream 데이터 분석

입력 데이터의 형태

userID
- 사용자 별 고유번호
- 총 7,442명의 고유한사용자 존재
assessmentItemID
- 사용자가 푼 문항의 일련 번호
- 총 9,454개의 고유한 문항이 존재
- 총 10자리로 구성 일련 번호의 규칙은 아래와 같음.
  - 첫 자리는 항상 알파벳 A
  - 그 다음 6자리는 시험지 번호
  - 마지막 3자리는 시험지 내 문항의 번호
  - ex) A030071005
testID
- 사용자가 푼 문항이 포함된 시험지의 일련 번호
- 총 1,537개의 고유한 시험지가 존재
- 10자리로 구성 일련 번호의 규칙은 아래와 같음.
  - 첫 자리는 항상 알파벳 A
  - 그 다음 9자리 중 앞의 3자리와 끝의 3자리가 시험지 번호
    - 앞의 3자리 중 가운데 자리만 1~9 값을 가지며 나머지는 모두 0 이다, 이를 대분류라는 Feature로 활용할 수 있다.
  - 가운데 3자리는 모두 000
answerCode
- 사용자가 문항을 맞았는지 여부를 담은 이진 데이터
- 전체 Interaction에 대해 65.45%가 정답을 맞춤
- 0은 해당 문항을 틀린 것, 1은 해당 문항을 맞은 것
Timestamp
- 사용자가 Interaction을 시작한 시간 정보
KnowledgeTag
- 문항 당 하나씩 배정되는 태그
- 일종의 중분류 역할
- 총 912개의 고유 태그가 존재

기술 통계량 분석

보통 데이터 자체의 정보를 수치로 요약, 단순화하는 것을 목적으로 하며 우리가 잘 알고 있는 평균, 중앙값, 최대/최소와 같은 값들을 뽑아내고, EDA 과정에서는 이들을 유의미하게 시각화하는 작업을 거칩니다.

사용자 분석

한 사용자가 몇 개의 문항을 풀었는지 (평균 339 문항, 최소 9문항, 최대 1,860문항)
학생 별로 정답률이 어떻게 되는지 (평균 62.8%, 최소 0.0%, 최대 100.0%, 중앙값 65.1%)

문항 별 / 시험지 별 정답률 분석

문항들의 정답률 추이가 어떻게 되는지 (평균 65.4%, 최소 4%, 최대 99.67%)
시험지 별로 정답률이 어떻게 되는지 (평균 62.8%, 최소 0.0%, 최대 100.0%, 중앙값 65.1%)

EDA

문항을 더 많이 푼 학생이 문제를 더 잘 맞추는가?
더 많이 노출된 태그가 정답률이 더 높은가?
문항을 풀수록 실력이 늘어나는가?
문항을 푸는 데 걸린 시간과 정답률 사이의 관계는?

Appendix

의문점

왜 git fetch로 .gitignore는 생성이 안되는지 이상하다.

피어섹션

다같이 aistages 서버 git 설정을 살펴봤다.
우팀소를 작성했다.

Share on

Twitter Facebook LinkedIn

Leave a comment

You may also enjoy

Pandas와 클라우드 DB 데이터 읽기 속도 비교

Boostcamp dtype mysql pandas pyarrow rds

January 19, 2023 less than 1 minute read

배경

numpy 자료형과 Pydantic에 의해 발생했던 버그

Boostcamp Boostcamp dtype fastapi int item() numpy.int64 pandas pydantic 부스트캠프 회고록

January 18, 2023 2 minute read

배경

Variational AutoEncoder 정리 - (2) Variational AutoEncoder

Boostcamp Autoencoder Boostcamp VAE 부스트캠프 회고록

December 29, 2022 1 minute read

Day 92

부스트캠프 AI 13주차(Day-89) Movie Recommendation - (3) 베이스라인 분석

Boostcamp Boostcamp Movie Recommenddation SASRec 부스트캠프 회고록

December 21, 2022 1 minute read

Baseline 분석