까먹을때 참고하기 위한 공간

달력

« 2024/4 »

2008. 1. 5. 17:05

day 2 & 3 netflix prize/일지2008. 1. 5. 17:05

netflix prize research day 2&3
- 노트북에 리눅스를 설치하고 코딩을 시작하였다.
- C++ 최적화 옵션 -static -O3를 사용하였다.
- 알고리즘 :

각 유저들의 rating을 기반으로 그룹화를 한다.
그룹을 바탕으로하여 실제 rating을 추측해낸다.

- 문제점 : 시간이 너무 오래걸린다. OTL
- 방향개선 : 통계자료 이용, db이용
TODO

주먹구구식이라도 알고리즘 적용하여 한번 풀어보기
베이지안 네트워크 적용하여 풀기. (통계프로그램의 분석을 통한 확률을 알고 있어야 한다.)

- 가장 시급한 것은 알고리즘을 개선하는 것이다. 현재 한시간동안 영화를 대략 500개정도 군집화(그룹화)가능하다.
collaborative filtering에 대한 wikipedia자료 정리하기.

문제해결법에 대한 IDEA
1. 그때 그때 qualifying에서 나오는 자료를 보고 즉석 계산한다.
-> 중복계산이 너무나 많다.

2. user들을 군집화시킨 후 알고리즘을 적용한다.(합리적...)

3. 영화제목으로부터 연관관계를 끌어낼 수 있을까(시리즈물, 어두운 분위기, 공포 등)
- WWE
- soldier
- Dark
- dragon ball
- national geographic
- 영화제목에 위의 단어가 들어있다면. 이용자가 시리즈물을 보고 평가한 결고를 반영할 수 있다.
- (user base + item base)
- 자주 검색되는 단어를 이용해도 된다.

4. 시간적으로 '최근' 취향이 비슷할 수록 가중치가 높아진다.
- user간에 얼마나 '많은' 영화의 평점이 얼마나 '많이'같은지, 그 각각의 영화가 얼마나 시기적으로 '가까운'지에
대하여 유사도를 계산한다..

Posted by Kwang-sung Jun

달력

« 2024/4 »

day 2 & 3 netflix prize/일지2008. 1. 5. 17:05

까먹을때 참고하기 위한 공간

카테고리

공지사항

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

링크

티스토리툴바