2008. 1. 5. 17:05
day 2 & 3 netflix prize/일지2008. 1. 5. 17:05
netflix prize research day 2&3
- 노트북에 리눅스를 설치하고 코딩을 시작하였다.
- C++ 최적화 옵션 -static -O3를 사용하였다.
- 알고리즘 :
- 방향개선 : 통계자료 이용, db이용
TODO
- 가장 시급한 것은 알고리즘을 개선하는 것이다. 현재 한시간동안 영화를 대략 500개정도 군집화(그룹화)가능하다.
collaborative filtering에 대한 wikipedia자료 정리하기.
문제해결법에 대한 IDEA
1. 그때 그때 qualifying에서 나오는 자료를 보고 즉석 계산한다.
-> 중복계산이 너무나 많다.
2. user들을 군집화시킨 후 알고리즘을 적용한다.(합리적...)
3. 영화제목으로부터 연관관계를 끌어낼 수 있을까(시리즈물, 어두운 분위기, 공포 등)
- WWE
- soldier
- Dark
- dragon ball
- national geographic
- 영화제목에 위의 단어가 들어있다면. 이용자가 시리즈물을 보고 평가한 결고를 반영할 수 있다.
- (user base + item base)
- 자주 검색되는 단어를 이용해도 된다.
4. 시간적으로 '최근' 취향이 비슷할 수록 가중치가 높아진다.
- user간에 얼마나 '많은' 영화의 평점이 얼마나 '많이'같은지, 그 각각의 영화가 얼마나 시기적으로 '가까운'지에
대하여 유사도를 계산한다..
- 노트북에 리눅스를 설치하고 코딩을 시작하였다.
- C++ 최적화 옵션 -static -O3를 사용하였다.
- 알고리즘 :
- 각 유저들의 rating을 기반으로 그룹화를 한다.
- 그룹을 바탕으로하여 실제 rating을 추측해낸다.
- 방향개선 : 통계자료 이용, db이용
TODO
- 주먹구구식이라도 알고리즘 적용하여 한번 풀어보기
- 베이지안 네트워크 적용하여 풀기. (통계프로그램의 분석을 통한 확률을 알고 있어야 한다.)
- 가장 시급한 것은 알고리즘을 개선하는 것이다. 현재 한시간동안 영화를 대략 500개정도 군집화(그룹화)가능하다.
collaborative filtering에 대한 wikipedia자료 정리하기.
문제해결법에 대한 IDEA
1. 그때 그때 qualifying에서 나오는 자료를 보고 즉석 계산한다.
-> 중복계산이 너무나 많다.
2. user들을 군집화시킨 후 알고리즘을 적용한다.(합리적...)
3. 영화제목으로부터 연관관계를 끌어낼 수 있을까(시리즈물, 어두운 분위기, 공포 등)
- WWE
- soldier
- Dark
- dragon ball
- national geographic
- 영화제목에 위의 단어가 들어있다면. 이용자가 시리즈물을 보고 평가한 결고를 반영할 수 있다.
- (user base + item base)
- 자주 검색되는 단어를 이용해도 된다.
4. 시간적으로 '최근' 취향이 비슷할 수록 가중치가 높아진다.
- user간에 얼마나 '많은' 영화의 평점이 얼마나 '많이'같은지, 그 각각의 영화가 얼마나 시기적으로 '가까운'지에
대하여 유사도를 계산한다..