netflix prize/일지
day 27~31
Kwang-sung Jun
2008. 2. 17. 22:32
netflix prize research day 27~31
이번 한주동안 한일은 다음과같다. (매우 많은데 이렇게 보니 또 별거 없어보인다.)
- NonNegativeQuadraticOpt알고리즘 최종적으로 정리(Robust!!)
- =>유효한건 stepSize가 nan이거나 0일때 강제로 0.001을 넣어준 것이었다.
- => BellKor가 제안한 구현조차 먹히지 않았기에 노가다를 통해 직접 깨닳았다.
- probe_rmse작성 통해 값을 내 보니 약 1.2정도 된다.
UserRating구조체는 bitfield를 사용하여 1바이트 압축. MovieRating역시 1바이트. (날짜 데이터를 제외시켰다.)
moviedata_set을 저장할때 userScaled를 키값으로 정렬되도록 하였다.
TODO
global effect구현볼츠만 머신 구현
SVD로 구현
문제해결법에 대한 IDEA
*. 영화제목으로부터 연관관계를 끌어낼 수 있을까(시리즈물, 어두운 분위기, 공포 등)
- WWE
- soldier
- Dark
- dragon ball
- national geographic
- 영화제목에 위의 단어가 들어있다면. 이용자가 시리즈물을 보고 평가한 결고를 반영할 수 있다.
- (user base + item base)
- 자주 검색되는 단어를 이용해도 된다.
*. 시간적으로 '최근' 취향이 비슷할 수록 가중치가 높아진다.
- user간에 얼마나 '많은' 영화의 평점이 얼마나 '많이'같은지, 그 각각의 영화가 얼마나 시기적으로 '가까운'지에
대하여 유사도를 계산한다..
=> 뭐 이딴것들은 다 논문에 나와있더라.. user-based approach와 item-based approach는 이미 다 나와있고... 상대적으로 item-based approach가 더 좋은 속도와 결과를 내지만,
나중에 데이터 짬뽕시키는게 적중률을 향상시키기에 시도는 했다 하더라.