2008. 1. 3. 21:08
day1 netflix prize/일지2008. 1. 3. 21:08
netflix prize research day 1
- netflix를 다운로드하고 자료의 생김새와 출력 형태를 정리하였다.
- 하루에 조금씩이라도 코딩을 하며 흥미를 잃지 않도록 격려한다.
- STL C++ 링크드리스트 또는 vector를 이용하여 작성해보자.
TODO
collaborative filtering에 대한 wikipedia자료 정리하기.
문제해결법에 대한 IDEA
1. 그때 그때 qualifying에서 나오는 자료를 보고 즉석 계산한다.
-> 중복계산이 너무나 많다.
2. user들을 군집화시킨 후 알고리즘을 적용한다.(합리적...)
3. 영화제목으로부터 연관관계를 끌어낼 수 있을까(시리즈물, 어두운 분위기, 공포 등)
- WWE
- soldier
- Dark
- dragon ball
- national geographic
- 영화제목에 위의 단어가 들어있다면. 이용자가 시리즈물을 보고 평가한 결고를 반영할 수 있다.
- (user base + item base)
- 자주 검색되는 단어를 이용해도 된다.
4. 시간적으로 '최근' 취향이 비슷할 수록 가중치가 높아진다.
- user간에 얼마나 '많은' 영화의 평점이 얼마나 '많이'같은지, 그 각각의 영화가 얼마나 시기적으로 '가까운'지에
대하여 유사도를 계산한다..
- netflix를 다운로드하고 자료의 생김새와 출력 형태를 정리하였다.
- 하루에 조금씩이라도 코딩을 하며 흥미를 잃지 않도록 격려한다.
- STL C++ 링크드리스트 또는 vector를 이용하여 작성해보자.
TODO
- 주먹구구식이라도 알고리즘 적용하여 한번 풀어보기
- 베이지안 네트워크 적용하여 풀기.
collaborative filtering에 대한 wikipedia자료 정리하기.
문제해결법에 대한 IDEA
1. 그때 그때 qualifying에서 나오는 자료를 보고 즉석 계산한다.
-> 중복계산이 너무나 많다.
2. user들을 군집화시킨 후 알고리즘을 적용한다.(합리적...)
3. 영화제목으로부터 연관관계를 끌어낼 수 있을까(시리즈물, 어두운 분위기, 공포 등)
- WWE
- soldier
- Dark
- dragon ball
- national geographic
- 영화제목에 위의 단어가 들어있다면. 이용자가 시리즈물을 보고 평가한 결고를 반영할 수 있다.
- (user base + item base)
- 자주 검색되는 단어를 이용해도 된다.
4. 시간적으로 '최근' 취향이 비슷할 수록 가중치가 높아진다.
- user간에 얼마나 '많은' 영화의 평점이 얼마나 '많이'같은지, 그 각각의 영화가 얼마나 시기적으로 '가까운'지에
대하여 유사도를 계산한다..