달력

3

« 2024/3 »

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31

'netflix'에 해당되는 글 10

  1. 2008.03.22 통계패키지, R, 기초사용법
  2. 2008.03.12 600위대 등극!
  3. 2008.02.28 영화, 극과 극
  4. 2008.02.27 순위상승
  5. 2008.02.25 순위등극!!!!
  6. 2008.02.12 force-directed placement 2
  7. 2008.02.11 추천시스템 서버적용 애플리케이션 아이디어
  8. 2008.02.04 day 26
  9. 2008.01.09 day 5 & 6
  10. 2008.01.02 이곳을 만들게 된 계기는 netflix
R

.R의 스크립트로 실행하기

R CMD BATCH <filename>


table을 만든다.

movie <- read.table("movie.tab")


$을 이용해서 칼럼의 자료들을 벡터로 받아낼 수가 있다.
y <- movie$Rating


범위는 0부터 5까지 1간격으로.
hist(y, seq(0, 5, 1), prob=TRUE)


"SJ"는 왠만큼 무난한 band width를 보장한다.
lines(density(y, bw="SJ"))
plot(density(y, bw=1))

(아직은 위의 그래프를 그렸을 때 x좌표가 의미하는것이 무엇인지 잘 모르겠다.)

평균등을 보여준다.
summary(y)

:
Posted by Kwang-sung Jun
2008. 3. 12. 17:49

600위대 등극! netflix prize/기타2008. 3. 12. 17:49


600위 등극! 영화의 분산을 고려하였다!
사용자 삽입 이미지
:
Posted by Kwang-sung Jun
2008. 2. 28. 22:08

영화, 극과 극 netflix prize/기타2008. 2. 28. 22:08

다음은 사용자들의 평가가 극고 극에 달하는 영화들의 리스트이다.

3864 2005 Batman Begins

5991 2005 Sin City

17324 2005 Hitch


457 2004 Kill Bill: Vol. 2

3713 2004 Saw

3710 2004 Van Helsing: The London Assignment

10231 2004 Kung Fu Hustle

10817 2004 Gantz


12155 2004 Spider-Man 2

13836 2004 Mulan 2

3579 2003 2 Fast 2 Furious


4472 2003 Love Actually

13102 2000 Coyote Ugly

11022 2004 Fahrenheit 9/11


9340,2001,Pearl Harbor

9886,1999,Star Wars: Episode I: The Phantom Menace

6844,2001,The Fast and the Furious

5991,2005,Sin City

14454,2003,Kill Bill: Vol. 1

15887,2004,Van Helsing

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

468,2003,The Matrix: Revolutions

483,2001,Rush Hour 2


1865,2004,Eternal Sunshine of the Spotless Mind

1962,2004,50 First Dates

1975,2000,Hollow Man

=2152,2000,What Women Want


3282,2004,Sideways


3427,2002,Men in Black II

3638,2003,Bad Boys II

3756,2002,About Schmidt


3925,2003,The Matrix: Reloaded

4266,2004,The Passion of the Christ


4670,1999,Wild Wild West

4698,1997,The Lost World: Jurassic Park

4972,2003,Paycheck


5154,2005,Constantine

5862,2000,Memento


5926,1999,Fight Club

6030,2001,I Am Sam


6972,1998,Armageddon

7032,2002,Austin Powers in Goldmember

8636,2003,Lara Croft: Tomb Raider: The Cradle of Life

8687,2002,Star Wars: Episode II: Attack of the Clones

9049,1997,Boogie Nights

9340,2001,Pearl Harbor

9886,1999,Star Wars: Episode I: The Phantom Menace

10170,2001,American Pie 2

10730,2002,Gangs of New York


12047,2000,Mission: Impossible II

12161,2003,Big Fish


12355,2001,A.I. Artificial Intelligence

12476,2002,Blade 2

13195,1997,Austin Powers: International Man of Mystery


14367,1998,Lethal Weapon 4

14454,2003,Kill Bill: Vol. 1


14712,2001,Tomb Raider

14725,1999,Austin Powers: The Spy Who Shagged Me


15124,1996,Independence Day

15205,2004,The Day After Tomorrow

=16522,2004,Shall We Dance?

16879,1997,Titanic

17622,2001,Vanilla Sky

:
Posted by Kwang-sung Jun
2008. 2. 27. 10:35

순위상승 netflix prize/기타2008. 2. 27. 10:35

사용자 삽입 이미지
이번엔 700위대로 진입!

:
Posted by Kwang-sung Jun
2008. 2. 25. 18:41

순위등극!!!! netflix prize/기타2008. 2. 25. 18:41


사용자 삽입 이미지
:
Posted by Kwang-sung Jun
2008. 2. 12. 11:01

force-directed placement netflix prize/시각화2008. 2. 12. 11:01

Re: A question about your visualization of Netflix movie data set.

The movies can be thought of as nodes in a graph, and the similarities can be thought of as weighted edges.  Then a force directed layout is used to layout the graph.  Take a look at:
 
 
Todd


On 2/10/08, 전광성 <deltakam@naver.com> wrote:

How are you?


I'm korean students who is interested in developing recommender system.(not commecially, just for my study and learning)


I have a question about your visualization of netflix movie data set.


I understand that you used movie similarity extracted from the article you mentioned in your web site.

However, how did you use it? I mean, we need 2 coordinate, x and y axis... 1 axis (x) can be drawn from the similarity, but, how about y axis? did you use different form of similarity indicator for another axis?


I got a plan on exhibiting my recommender system at IT festival in South Korea held by SAMSUNG SDS, and I DO need to visualize my system, but struggling with how to show the principle of the algorithm....


plz help me

:
Posted by Kwang-sung Jun

메뉴 에서 선택

1. 서버에서 어떤 데이터 베이스에 어떤 테이블, 어떤 칼럼에정보가 들어있는지 그 정보를 읽도록 한다.

2. 그 데이터를 기반으로 바이너리 데이터를 생성해 메모리에 올린다.

3. 메모리에 올린 데이터로 preprocessing data를 생성한다. (유사도 + 행렬 A)
-> 이 와중에 시각화를 시키는 것이 가능하다 - 유사도를 이용하여 영화의 군집화를 보여주는 것이다.

<이상의 작업은 하루에 한번 이용량이 적은 시간대에 행해질 것이다. UI버전 + CUI버전 동시에 제공. UI버전은 실행과 동시에 작업이 진행된다.)
... 시간 소요 ...
 
4. 이제 그 바이너리 데이터를 기반으로 항시 "추천"이 가능하다.
4-1. 추천의 방법은 예를 들면, 최신 영화 100개를 대상으로 맞춤평점순 정렬을 시킨다든지, 특정 장르, 특정 검색어를 통해 "검색"과 동시에 맞춤평점을 평가하는 방식이 가능하다.
4-2. 또는 랜덤하게 추출한 100개의 영화중 맞춤평점이 높은 영화를 추천해 줄 수 있다.


* 프로토 타입만 생성가능 => 전시회이지 공모전이 아니기 때문이다...
* 실험데이터를 자주 참조하자.


궁금증 ** 왜 weight의 합은 1이 아닐까??????????????

:
Posted by Kwang-sung Jun
2008. 2. 4. 21:46

day 26 netflix prize/일지2008. 2. 4. 21:46

netflix prize research day 26

오늘 한일은 다음과같다

  • N(i; u)를 구했다. 즉, u가 rating했던 아이템중 i와 비슷한 아이템 20개를 선정한다.(20이 안되는 경우는 assert걸어둔다.)

이를 위해서 오늘

  • recommender.cpp작성
  • similarity_loader 모듈작성
  • matrix_loader 모듈작성
  • userdata_loader 모듈작성

TODO

각 유져와 무비 페어에 대해.
• N(i;u)를 구한다. 즉 u가 rating했던 아이템중 i와 비슷한 아이템 20개를 선정한다.(20이 안되는 경우는 assert걸어둔다.)
• 20 * 20 매트릭스 A, 20 * 1 벡터 b를 작성하고, 알고리즘을 이용하여 w를 구한다.
• 레이팅을 채운다..


  - 통계프로그램을 구했으니 슬슬 자료 분석도 시작해 봐야지

문제해결법에 대한 IDEA

*. 영화제목으로부터 연관관계를 끌어낼 수 있을까(시리즈물, 어두운 분위기, 공포 등)

 - WWE
 - soldier
 - Dark
 - dragon ball
 - national geographic
 - 영화제목에 위의 단어가 들어있다면. 이용자가 시리즈물을 보고 평가한 결고를 반영할 수 있다.
 - (user base + item base)
 - 자주 검색되는 단어를 이용해도 된다.
 
*. 시간적으로 '최근' 취향이 비슷할 수록 가중치가 높아진다.
 - user간에 얼마나 '많은' 영화의 평점이 얼마나 '많이'같은지, 그 각각의 영화가 얼마나 시기적으로 '가까운'지에
대하여 유사도를 계산한다..

=> 뭐 이딴것들은 다 논문에 나와있더라.. user-based approach와 item-based approach는 이미 다 나와있고... 상대적으로 item-based approach가 더 좋은 속도와 결과를 내지만,
나중에 데이터 짬뽕시키는게 적중률을 향상시키기에 시도는 했다 하더라.
:
Posted by Kwang-sung Jun
2008. 1. 9. 18:16

day 5 & 6 netflix prize/일지2008. 1. 9. 18:16

netflix prize research day 5 & 6
<5일차의 삽질>
 밤새 돌려놓았던 분류기가 이상하게 0바이트의 파일들을 만들어 내고 있었다.
새로운 그룹을 생성하였지만 사이즈가 그대로 0이 되어버리는 경우는?
 ->> 반지의 제왕! .. 그 누구라도 4점과 5점을 주었다. 따라서 1점 2점 3점의 그룹은 사이즈가 0인채로 기록된것이다.

< 삽질하나더>
hash_map<int, char*> 의 인스턴스가 newHash라고 할때,
newHash[3] = "dkfjld"
라고 쓰는것은 좋다. 그러나 값을 가져오기 위해서 newHash[3]을 사용해서는 안된다. 만약 3이라는 key값에 해당하는 value가 없을 경우에는 결국 키값이 3, 밸류가 0인 자료를 생성해서 대입하게 되기 때문이다.

<클러스터링>
클러스터링이란, 내가 생각해오던 대로 군집화시키는 알고리즘이었다.
wikipedia.org를 참고하여서 클러스터링 알고리즘을 이해하고 알고리즘을 노트에
순서대로 적어놓았다.
한가지 결정할 사항이 있다.
mysql에 모든 자료를 다 집어넣어놓고 작업을 해야 하는가?
아마도 그런 듯 하다. 왜냐하면 지금 파일에는 '영화'기반으로 자료가 들어가 있는데,
'유져'기반의 추천시스템인 collaborative filtering을 구현하기 위해서 나는 자료를 반드시 '유져'기반으로 갖고 있어야 하기 때문이다. 그렇다고 해서 코딩으로 이들을 모두 분류시키기는 또 무리인 것 같고.. 아구마 할일 많구만.


TODO
 - mssql에 모든 데이터를 쑤셔 넣어 버리자!
  - 통계프로그램을 구했으니 슬슬 자료 분석도 시작해 봐야지
 - 2007년 1등한사람의 PDF를 종종 읽으며 연관기술을 습득하자.
 - STL사용법을 삽질기에 적어놓도록 하자.

  1. 주먹구구식이라도 알고리즘 적용하여 한번 풀어보기
  2. 베이지안 네트워크 적용하여 풀기. (통계프로그램의 분석을 통한 확률을 알고 있어야 한다.)

 - 가장 시급한 것은 알고리즘을 개선하는 것이다. 현재 한시간동안 영화를 대략 500개정도 군집화(그룹화)가능하다.
collaborative filtering에 대한 wikipedia자료 정리하기.

문제해결법에 대한 IDEA

*. user들을 군집화시킨 후 알고리즘을 적용한다.(합리적...)
 
*. 영화제목으로부터 연관관계를 끌어낼 수 있을까(시리즈물, 어두운 분위기, 공포 등)
 - WWE
 - soldier
 - Dark
 - dragon ball
 - national geographic
 - 영화제목에 위의 단어가 들어있다면. 이용자가 시리즈물을 보고 평가한 결고를 반영할 수 있다.
 - (user base + item base)
 - 자주 검색되는 단어를 이용해도 된다.
 
*. 시간적으로 '최근' 취향이 비슷할 수록 가중치가 높아진다.
 - user간에 얼마나 '많은' 영화의 평점이 얼마나 '많이'같은지, 그 각각의 영화가 얼마나 시기적으로 '가까운'지에
대하여 유사도를 계산한다..
:
Posted by Kwang-sung Jun
netflix prize때문에 만들었습니다.
혹시 관심있는 사람들이 검색하다가 한번씩 들리지 않을까 싶기도 하고
아니 그보다도 제가 공부한 내용 적어놓으려고 말입니다. ㅎㅎ
:
Posted by Kwang-sung Jun