1 minute read

Day 58

DKT Exploratory Data Analysis

입력 데이터와 해결 해야할 문제와의 직관이나 연관성을 얻기 위해 데이터 분석을 진행한다. EDA를 통해 문제 정의를 더 구체화 하거나 실마리를 얻을 수 있다.

i-Scream 데이터 분석

입력 데이터의 형태

image
  • userID
    • 사용자 별 고유번호
    • 총 7,442명의 고유한사용자 존재
  • assessmentItemID
    • 사용자가 푼 문항의 일련 번호
    • 총 9,454개의 고유한 문항이 존재
    • 총 10자리로 구성 일련 번호의 규칙은 아래와 같음.
      • 첫 자리는 항상 알파벳 A
      • 그 다음 6자리는 시험지 번호
      • 마지막 3자리는 시험지 내 문항의 번호
      • ex) A030071005
  • testID
    • 사용자가 푼 문항이 포함된 시험지의 일련 번호
    • 총 1,537개의 고유한 시험지가 존재
    • 10자리로 구성 일련 번호의 규칙은 아래와 같음.
      • 첫 자리는 항상 알파벳 A
      • 그 다음 9자리 중 앞의 3자리와 끝의 3자리가 시험지 번호
        • 앞의 3자리 중 가운데 자리만 1~9 값을 가지며 나머지는 모두 0 이다, 이를 대분류라는 Feature로 활용할 수 있다.
      • 가운데 3자리는 모두 000
  • answerCode
    • 사용자가 문항을 맞았는지 여부를 담은 이진 데이터
    • 전체 Interaction에 대해 65.45%가 정답을 맞춤
    • 0은 해당 문항을 틀린 것, 1은 해당 문항을 맞은 것
  • Timestamp
    • 사용자가 Interaction을 시작한 시간 정보
  • KnowledgeTag
    • 문항 당 하나씩 배정되는 태그
    • 일종의 중분류 역할
    • 총 912개의 고유 태그가 존재

기술 통계량 분석

보통 데이터 자체의 정보를 수치로 요약, 단순화하는 것을 목적으로 하며 우리가 잘 알고 있는 평균, 중앙값, 최대/최소와 같은 값들을 뽑아내고, EDA 과정에서는 이들을 유의미하게 시각화하는 작업을 거칩니다.

사용자 분석

  • 한 사용자가 몇 개의 문항을 풀었는지 (평균 339 문항, 최소 9문항, 최대 1,860문항)

    image

  • 학생 별로 정답률이 어떻게 되는지 (평균 62.8%, 최소 0.0%, 최대 100.0%, 중앙값 65.1%)

    image

문항 별 / 시험지 별 정답률 분석

  • 문항들의 정답률 추이가 어떻게 되는지 (평균 65.4%, 최소 4%, 최대 99.67%)

    image

  • 시험지 별로 정답률이 어떻게 되는지 (평균 62.8%, 최소 0.0%, 최대 100.0%, 중앙값 65.1%)

    image

EDA

  • 문항을 더 많이 푼 학생이 문제를 더 잘 맞추는가?

    image

  • 더 많이 노출된 태그가 정답률이 더 높은가?

    image

  • 문항을 풀수록 실력이 늘어나는가?

    image

  • 문항을 푸는 데 걸린 시간과 정답률 사이의 관계는?

    image


Appendix

의문점

왜 git fetch로 .gitignore는 생성이 안되는지 이상하다.

피어섹션

  • 다같이 aistages 서버 git 설정을 살펴봤다.
  • 우팀소를 작성했다.

Leave a comment