달력

4

« 2024/4 »

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
2008. 1. 12. 02:12

day7, 8 netflix prize/일지2008. 1. 12. 02:12

netflix prize research day 7 & 8
<한일이라고는....>
삼성 SDS 관련 문서작성하였다.(PPT)
금요일은,... 001에 물난리가 나는 바람에 001을 쓰지 못하였고, 도서관으로 갔으나, 리눅스에서 무선 인터넷 안되는것 삽질하다가 이도저도 못했다.

TODO
 - mssql에 모든 데이터를 쑤셔 넣어 버리자!
  - 통계프로그램을 구했으니 슬슬 자료 분석도 시작해 봐야지
 - 2007년 1등한사람의 PDF를 종종 읽으며 연관기술을 습득하자.
 - STL사용법을 삽질기에 적어놓도록 하자.

  1. 주먹구구식이라도 알고리즘 적용하여 한번 풀어보기
  2. 베이지안 네트워크 적용하여 풀기. (통계프로그램의 분석을 통한 확률을 알고 있어야 한다.)

 - 가장 시급한 것은 알고리즘을 개선하는 것이다. 현재 한시간동안 영화를 대략 500개정도 군집화(그룹화)가능하다.
collaborative filtering에 대한 wikipedia자료 정리하기.

문제해결법에 대한 IDEA

*. user들을 군집화시킨 후 알고리즘을 적용한다.(합리적...)
 
*. 영화제목으로부터 연관관계를 끌어낼 수 있을까(시리즈물, 어두운 분위기, 공포 등)
 - WWE
 - soldier
 - Dark
 - dragon ball
 - national geographic
 - 영화제목에 위의 단어가 들어있다면. 이용자가 시리즈물을 보고 평가한 결고를 반영할 수 있다.
 - (user base + item base)
 - 자주 검색되는 단어를 이용해도 된다.
 
*. 시간적으로 '최근' 취향이 비슷할 수록 가중치가 높아진다.
 - user간에 얼마나 '많은' 영화의 평점이 얼마나 '많이'같은지, 그 각각의 영화가 얼마나 시기적으로 '가까운'지에
대하여 유사도를 계산한다..
:
Posted by Kwang-sung Jun
2008. 1. 10. 13:26

netflix에서 제공된 파일설명 netflix prize2008. 1. 10. 13:26

training data set
 - 기존에 주어지는 각 회원이 매긴 rating값 자료
qualifying test set ( qualifying.txt )
 - 사용자와 영화가 한 페어로 주어지며, rating값은 빈칸으로 있다. 이것이 바로 내가 채워야 할 부분

quiz subset
 - 총 제출된 자료 중에서 랜덤하게 구분된것. 여기서 측정된 RMSE는 공개된다.
test subset
 - 총 제출된 자료 중에서 랜덤하게 구분된것. 여기서 측정된 RMSE는 공개되지 않는다.

movie_titles.txt
 - 영화 ID, 년도, 제목
 - 사실. 제목은 별로 중요하지 않다.

training_set
 - 학습할 자료들. 파일이름은 [영화ID].txt
 - 영화ID:
   고객ID,rating,날짜
   고객ID,rating,날짜
   고객ID,rating,날짜
   ...

qualifying.txt
 - 학습한 자료를 가지고 추측해야할 자료이다.
 - 영화ID:
   고객ID,날짜
   고객ID,날짜
   고객ID,날짜
   ...
 - 영화별 각 고객의 날짜정보를 이용해야 한다.

probe.txt
 - 영화ID:
   고객ID
   고객ID
   고객ID
   ...
 - quiz subset과 같은 형식이지만, 이미 training_set에 들어있는 내용으로 이루어져있다.
 - 따라서, 이 자료를 통해 RMSE를 테스트해볼 수 있다.
 - 고객의 rating date는 알아서 본래 자료로부터 빼와 참고할것.

:
Posted by Kwang-sung Jun
2008. 1. 10. 13:24

제안서 작성요령 삽질예방/제안서 쓰기2008. 1. 10. 13:24

<프로젝트 제목>
<주의 : ppt에 작성할 때, 반드시 첫 페이지는 목차로 시작, 끝맺음은 Q&A로 끝맺어야 한다.>

1. 해결하고자 하는 문제점에 대한 설명

2. 해결책은 어떻게 이 문제에 접근하는가?

3. 일반 유저의 시나리오와 어떻게 이 프로젝트를 사용할 수 있는가?

4. 프로젝트가 IT Festival 의 주제와 어떻게 연관이 되는지를 설명

5. 왜 <특정 기술> 이 프로젝트에 필요한지를 설명

6. 솔루션 컴포넌트의 다이어그램과 어떻게 상호 작용하는지를 보인다.

7. 이 어떻게 조직되었고, 업무는 어떻게 분담되었는지를 설명한다.

8. 프로젝트의 현재 상태에 대한 설명 (아이디어 상태인지, 프로토타입을
 만들었는지. 특정 상황에서 실제 작동하는지)

9. 프로젝트가 향후에 어떤 모습을 보일 것인가?

10. IT Festival에 출전해야만 하는가?

11. 본 프로젝트의 완성이 가져올 파장에 대한 환상을 심어주며 종료.

:
Posted by Kwang-sung Jun