통계패키지, R, 기초사용법 삽질예방/R, 통계패키지2008. 3. 22. 16:23
.R의 스크립트로 실행하기
table을 만든다.
$을 이용해서 칼럼의 자료들을 벡터로 받아낼 수가 있다.
범위는 0부터 5까지 1간격으로.
"SJ"는 왠만큼 무난한 band width를 보장한다.
plot(density(y, bw=1))
(아직은 위의 그래프를 그렸을 때 x좌표가 의미하는것이 무엇인지 잘 모르겠다.)
평균등을 보여준다.
3864 2005 Batman Begins
5991 2005 Sin City
17324 2005 Hitch
457 2004 Kill Bill: Vol. 2
3713 2004 Saw
3710 2004 Van Helsing: The London Assignment
10231 2004 Kung Fu Hustle
10817 2004 Gantz
12155 2004 Spider-Man 2
13836 2004 Mulan 2
3579 2003 2 Fast 2 Furious
4472 2003 Love Actually
13102 2000 Coyote Ugly
11022 2004 Fahrenheit 9/11
9340,2001,Pearl Harbor
9886,1999,Star Wars: Episode I: The Phantom Menace
6844,2001,The Fast and the Furious
5991,2005,Sin City
14454,2003,Kill Bill: Vol. 1
15887,2004,Van Helsing
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
468,2003,The Matrix: Revolutions
483,2001,Rush Hour 2
1865,2004,Eternal Sunshine of the Spotless Mind
1962,2004,50 First Dates
1975,2000,Hollow Man
=2152,2000,What Women Want
3282,2004,Sideways
3427,2002,Men in Black II
3638,2003,Bad Boys II
3756,2002,About Schmidt
3925,2003,The Matrix: Reloaded
4266,2004,The Passion of the Christ
4670,1999,Wild Wild West
4698,1997,The Lost World: Jurassic Park
4972,2003,Paycheck
5154,2005,Constantine
5862,2000,Memento
5926,1999,Fight Club
6030,2001,I Am Sam
6972,1998,Armageddon
7032,2002,Austin Powers in Goldmember
8636,2003,Lara Croft: Tomb Raider: The Cradle of Life
8687,2002,Star Wars: Episode II: Attack of the Clones
9049,1997,Boogie Nights
9340,2001,Pearl Harbor
9886,1999,Star Wars: Episode I: The Phantom Menace
10170,2001,American Pie 2
10730,2002,Gangs of New York
12047,2000,Mission: Impossible II
12161,2003,Big Fish
12355,2001,A.I. Artificial Intelligence
12476,2002,Blade 2
13195,1997,Austin Powers: International Man of Mystery
14367,1998,Lethal Weapon 4
14454,2003,Kill Bill: Vol. 1
14712,2001,Tomb Raider
14725,1999,Austin Powers: The Spy Who Shagged Me
15124,1996,Independence Day
15205,2004,The Day After Tomorrow
=16522,2004,Shall We Dance?
16879,1997,Titanic
17622,2001,Vanilla Sky
How are you?
I'm korean students who is interested in developing recommender system.(not commecially, just for my study and learning)
I have a question about your visualization of netflix movie data set.
I understand that you used movie similarity extracted from the article you mentioned in your web site.
However, how did you use it? I mean, we need 2 coordinate, x and y axis... 1 axis (x) can be drawn from the similarity, but, how about y axis? did you use different form of similarity indicator for another axis?
I got a plan on exhibiting my recommender system at IT festival in South Korea held by SAMSUNG SDS, and I DO need to visualize my system, but struggling with how to show the principle of the algorithm....
plz help me
메뉴 에서 선택
1. 서버에서 어떤 데이터 베이스에 어떤 테이블, 어떤 칼럼에정보가 들어있는지 그 정보를 읽도록 한다.
2. 그 데이터를 기반으로 바이너리 데이터를 생성해 메모리에 올린다.
3. 메모리에 올린 데이터로 preprocessing data를 생성한다. (유사도 + 행렬 A)
-> 이 와중에 시각화를 시키는 것이 가능하다 - 유사도를 이용하여 영화의 군집화를 보여주는 것이다.
<이상의 작업은 하루에 한번 이용량이 적은 시간대에 행해질 것이다. UI버전 + CUI버전 동시에 제공. UI버전은 실행과 동시에 작업이 진행된다.)
... 시간 소요 ...
4. 이제 그 바이너리 데이터를 기반으로 항시 "추천"이 가능하다.
4-1. 추천의 방법은 예를 들면, 최신 영화 100개를 대상으로 맞춤평점순 정렬을 시킨다든지, 특정 장르, 특정 검색어를 통해 "검색"과 동시에 맞춤평점을 평가하는 방식이 가능하다.
4-2. 또는 랜덤하게 추출한 100개의 영화중 맞춤평점이 높은 영화를 추천해 줄 수 있다.
* 프로토 타입만 생성가능 => 전시회이지 공모전이 아니기 때문이다...
* 실험데이터를 자주 참조하자.
궁금증 ** 왜 weight의 합은 1이 아닐까??????????????
netflix prize research day 26
오늘 한일은 다음과같다
이를 위해서 오늘
TODO
각 유져와 무비 페어에 대해.
• N(i;u)를 구한다. 즉 u가 rating했던 아이템중 i와 비슷한 아이템 20개를 선정한다.(20이 안되는 경우는 assert걸어둔다.)
• 20 * 20 매트릭스 A, 20 * 1 벡터 b를 작성하고, 알고리즘을 이용하여 w를 구한다.
• 레이팅을 채운다..
- 통계프로그램을 구했으니 슬슬 자료 분석도 시작해 봐야지
netflix prize research day 5 & 6
<5일차의 삽질>
밤새 돌려놓았던 분류기가 이상하게 0바이트의 파일들을 만들어 내고 있었다.
새로운 그룹을 생성하였지만 사이즈가 그대로 0이 되어버리는 경우는?
->> 반지의 제왕! .. 그 누구라도 4점과 5점을 주었다. 따라서 1점 2점 3점의 그룹은 사이즈가 0인채로 기록된것이다.
< 삽질하나더>
hash_map<int, char*> 의 인스턴스가 newHash라고 할때,
newHash[3] = "dkfjld"
라고 쓰는것은 좋다. 그러나 값을 가져오기 위해서 newHash[3]을 사용해서는 안된다. 만약 3이라는 key값에 해당하는 value가 없을 경우에는 결국 키값이 3, 밸류가 0인 자료를 생성해서 대입하게 되기 때문이다.
<클러스터링>
클러스터링이란, 내가 생각해오던 대로 군집화시키는 알고리즘이었다.
wikipedia.org를 참고하여서 클러스터링 알고리즘을 이해하고 알고리즘을 노트에
순서대로 적어놓았다.
한가지 결정할 사항이 있다.
mysql에 모든 자료를 다 집어넣어놓고 작업을 해야 하는가?
아마도 그런 듯 하다. 왜냐하면 지금 파일에는 '영화'기반으로 자료가 들어가 있는데,
'유져'기반의 추천시스템인 collaborative filtering을 구현하기 위해서 나는 자료를 반드시 '유져'기반으로 갖고 있어야 하기 때문이다. 그렇다고 해서 코딩으로 이들을 모두 분류시키기는 또 무리인 것 같고.. 아구마 할일 많구만.
TODO
- mssql에 모든 데이터를 쑤셔 넣어 버리자!
- 통계프로그램을 구했으니 슬슬 자료 분석도 시작해 봐야지
- 2007년 1등한사람의 PDF를 종종 읽으며 연관기술을 습득하자.
- STL사용법을 삽질기에 적어놓도록 하자.