달력

4

« 2024/4 »

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
2008. 1. 10. 13:26

netflix에서 제공된 파일설명 netflix prize2008. 1. 10. 13:26

training data set
 - 기존에 주어지는 각 회원이 매긴 rating값 자료
qualifying test set ( qualifying.txt )
 - 사용자와 영화가 한 페어로 주어지며, rating값은 빈칸으로 있다. 이것이 바로 내가 채워야 할 부분

quiz subset
 - 총 제출된 자료 중에서 랜덤하게 구분된것. 여기서 측정된 RMSE는 공개된다.
test subset
 - 총 제출된 자료 중에서 랜덤하게 구분된것. 여기서 측정된 RMSE는 공개되지 않는다.

movie_titles.txt
 - 영화 ID, 년도, 제목
 - 사실. 제목은 별로 중요하지 않다.

training_set
 - 학습할 자료들. 파일이름은 [영화ID].txt
 - 영화ID:
   고객ID,rating,날짜
   고객ID,rating,날짜
   고객ID,rating,날짜
   ...

qualifying.txt
 - 학습한 자료를 가지고 추측해야할 자료이다.
 - 영화ID:
   고객ID,날짜
   고객ID,날짜
   고객ID,날짜
   ...
 - 영화별 각 고객의 날짜정보를 이용해야 한다.

probe.txt
 - 영화ID:
   고객ID
   고객ID
   고객ID
   ...
 - quiz subset과 같은 형식이지만, 이미 training_set에 들어있는 내용으로 이루어져있다.
 - 따라서, 이 자료를 통해 RMSE를 테스트해볼 수 있다.
 - 고객의 rating date는 알아서 본래 자료로부터 빼와 참고할것.

:
Posted by Kwang-sung Jun