협력적 여과의 쉬운 설명. netflix prize/기타2008. 2. 18. 10:53
http://foaf.tistory.com/5
아마존의 추천 시스템.
http://foaf.tistory.com/4
선구적인 연구.. (연구내용)
http://foaf.tistory.com/6
netflix prize research day 27~31
이번 한주동안 한일은 다음과같다. (매우 많은데 이렇게 보니 또 별거 없어보인다.)
UserRating구조체는 bitfield를 사용하여 1바이트 압축. MovieRating역시 1바이트. (날짜 데이터를 제외시켰다.)
moviedata_set을 저장할때 userScaled를 키값으로 정렬되도록 하였다.
TODO
global effect구현1. Ax = b 원래의 복잡한 연산을 매트릭스로 압축시켜놓은 것일 뿐.
2. 공부내용 정리 및 문서화는 어떻게? -> 답없음
3. machine learning 교재 추천. MACHINE LEARNING, McGraw Hill, TOM. M. MITCHELL
4. 교수님께서 논문쓰실때 구현은 - 언제나 C, 행렬처리는 MATLAB을 쓰는것이 더 빠르다.
JAVA 기계학습 라이브러리 - WEKA
S, S+
R (통계 패키지)
5. 논문 -> 정보과학회에 낼 수 있을 것 같다.(2007년에는 4월 17일경에 제출 마감이 있었다.)
학회는 international학회라해서 항상 규모가 있는 것은 아니다. 일단 국내 학회에 낸 후, 국외에 내도 늦지 않다.
다음은 <포스터 발표>
구두 발표
6. 논문 검색 -> 그냥 구글을 이용하는 것이 편하다.
* review article ->새로운 것을 제안하는 것이 아니라 기존에 있는 것들을 collect하여 쓰인 논문들. 학습하기에 좋다.
* communication paper
* 논문 검색 사이트 : DBLP, cite seer 가 CS에서는 가장 큰 사이트
7. 시각화 : pajek - 5000이상의 데이터가 넘어가면 버벅대더라.
* collaborative filtering은 이수원 교수님 랩 쪽이 더 잘 알고 있을 것이다.
How are you?
I'm korean students who is interested in developing recommender system.(not commecially, just for my study and learning)
I have a question about your visualization of netflix movie data set.
I understand that you used movie similarity extracted from the article you mentioned in your web site.
However, how did you use it? I mean, we need 2 coordinate, x and y axis... 1 axis (x) can be drawn from the similarity, but, how about y axis? did you use different form of similarity indicator for another axis?
I got a plan on exhibiting my recommender system at IT festival in South Korea held by SAMSUNG SDS, and I DO need to visualize my system, but struggling with how to show the principle of the algorithm....
plz help me
메뉴 에서 선택
1. 서버에서 어떤 데이터 베이스에 어떤 테이블, 어떤 칼럼에정보가 들어있는지 그 정보를 읽도록 한다.
2. 그 데이터를 기반으로 바이너리 데이터를 생성해 메모리에 올린다.
3. 메모리에 올린 데이터로 preprocessing data를 생성한다. (유사도 + 행렬 A)
-> 이 와중에 시각화를 시키는 것이 가능하다 - 유사도를 이용하여 영화의 군집화를 보여주는 것이다.
<이상의 작업은 하루에 한번 이용량이 적은 시간대에 행해질 것이다. UI버전 + CUI버전 동시에 제공. UI버전은 실행과 동시에 작업이 진행된다.)
... 시간 소요 ...
4. 이제 그 바이너리 데이터를 기반으로 항시 "추천"이 가능하다.
4-1. 추천의 방법은 예를 들면, 최신 영화 100개를 대상으로 맞춤평점순 정렬을 시킨다든지, 특정 장르, 특정 검색어를 통해 "검색"과 동시에 맞춤평점을 평가하는 방식이 가능하다.
4-2. 또는 랜덤하게 추출한 100개의 영화중 맞춤평점이 높은 영화를 추천해 줄 수 있다.
* 프로토 타입만 생성가능 => 전시회이지 공모전이 아니기 때문이다...
* 실험데이터를 자주 참조하자.
궁금증 ** 왜 weight의 합은 1이 아닐까??????????????