달력

12

« 2017/12 »

  •  
  •  
  •  
  •  
  •  
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  •  
  •  
  •  
  •  
  •  
  •  
  1. 정보과학회에서 나온 형식으로 쓰기
  2. 타이틀 빼고, 저자 작성하기.
  3. 실험: p-norm에서 분수에 루트씌우는 1/p부분 제거하고, alpha값 고려해서 테스트해보기
  4. 수식에 번호삽입
  5. 수식을 이탤릭체로, + Times New Roman
  6. 변수이름이나 k를 모두 이탤릭체로
  7. min w 에서, w를 작게 표시하는법 찾기
  8. 평가값의 정규화를 포함하기
  9. 참고문헌 인용된 순서로 바꾸기으로
  10. 서론에서 기존의 CF에서 이용된 기법을 간단히 설명


오 교수님께서 매우 꼼꼼히 첨삭해 주셨다.
감사합니다.

신고
Posted by Kwang-sung Jun

줄거리를 쓰기 시작해야한다.

1. 한문단 가량 collaborative filtering 에 대한 개요(참고문헌 3~4개 정도 채우기)
2. A4용지 한장 반-> 논문을 요약. 순서도 + 수식 + 알고리즘 수도코드(반드시 출처 밝힐 것.)
3. k값의 변화에 대한것, 상관계수방법과 interpolation방법에 의한 것, p - norm변화에 따른 결과. 표 + 이유를 제시

마감: 일요일 까지.

나머지..

1. 데이터 셋에 대한 소개.
2. 전체 참고문헌은 10개 가량으로 요약.

신고
Posted by Kwang-sung Jun
2008.03.22 19:38

사용자의 점수 분포도 netflix prize/일지2008.03.22 19:38

분포는 분명히 내가 예측한대로 나오는데
사용자 삽입 이미지

어째서 , 어째서 , 분산을 좌, 우 따로 생각했을때는 값이 시원찮을까.?
신고
Posted by Kwang-sung Jun

1. movielens데이터 적용(최우선).
2. 이메일로 논문 제목 보내기.
3. 논문 지속적으로 읽어보기.
4. p-norm에서 p값을 바꾸어가며 해보기.

5. 통계패키지, R + emacs

6. 각 이웃의 |U(i, j)|가 얼마나 차이나는지... 성능향상을 위한 방법 생각해보기
7. 유사도에서 |U(i, j)|를 두배시켜 사용한다든지, 아니면 조금 낮춘다든지..
8. 영화의 좌우 분산 어느정도로 분포되어있는지, 어느정도 차이나는지 파악하기 또는 그래프 그려보기

. 논문에 들어갈 내용...
 - movielens 데이터, 파라미터 어떤값에서 최적인지, p-norm을 시도한 이야기(p값에 따라.)
 - 앙상블에 대한 시도를 하기에는 부족한 시간.
 - 최적의 k값을 선정하기-> k가 증가할수록 정확해지기때문에 그다지.

신고
Posted by Kwang-sung Jun
2008.03.16 08:02

34번째 netflix prize/일지2008.03.16 08:02

전날밤 열심히 돌려두었던 프로그램은 엉뚱한 결과를 생성해내고야 말았다...
실수 계산할 때는 곳곳에 assert(false == isnan(fnum));을 해주어야 한다는 매우 기초적인 사실...


덕분에 월요일로 테스트를 미루게 되었고...

MovieLens데이터 이식과정..

6040 users( 1 ~ 6040 ), each at least 20 ratings for each users
3883 movies( 1 ~ 3952 ), sparse...

1000209 ratings w/ probe
30200 ratings in probe set
970009 ratings w/o probe

after changing to netflix format

6040 users(0 ~ 6039)
3883 movies(1 ~ 3883)
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
완료... 이제 netflix_prize에서 옵션을 줌으로써 가능하게 만들어야 한다.

• -건드린 부분. env_vars_loader.cpp에서 데이터 로드하는 부분..
• recommender.cpp.... 에서 movielens data를 읽어올 수 있도록하기.

할일들은??
• matrix_gen, corr_gen, similarity_gen.이 모두 잘 작동하도록 해주어야 한다.
• 무지막지하게 variable을 건드려야 할듯.
• AVG_DIAGONAL 밸류 실험후 집어넣기..
• 파일 경로들... 모두 수정..

이제는 사실 여기에다가 로그를 남기는게 의미없어진듯하다.  시간투자를 많이 할수 있으면 좋으련만.
아무튼 수요일 전까지는 끝내야하는 일들이니 ㅠㅠ

오늘은 집에가다가 근택이네 한번 들려주어야 겟다...
신고
Posted by Kwang-sung Jun
2008.03.12 08:19

33번쨰 netflix prize/일지2008.03.12 08:19

벌써 33번쨰가 되었다.

글을 안써왔던 게으른 나... 으헉

삼성SDS 전시회때문이라고 핑계되도 될까나.

아무튼 본론은....
이제슬슬 ml.ssu.ac.kr을 이용하여 유사도를 계산하기 시작했다

아까 낮에는 그거 때문에 삽질했다. 그쪽 서버가 64비트인줄 모르고 신나게 쓰고 있었던 거다. 컴퓨터를 돌려놓고 집에 갔다올 생각이다.

p-norm에서 p값을 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 까지 9개로하고서는
쉘프로그램으로 돌려놓고 왔다.
아마 끝나고나면 ml.ssu.ac.kr서버 용량을 5기가 이상 차지해 놓았을 거다. 뭐 문제 없길바래야지.

오늘 600위대 진입은 박수보내 마땅한 일이다.
사실, 사용자 평균과 분산까지도 고려하면 더욱 더 훌륭한 수치가 나올 수 있지만,... 컴퓨터 사양이 딸린다 -_-;

결국 이런 문제로 귀결되는가...

아무튼 잡소리는 그만하고...

할일 1순위는 p-norm 기반 유사도 방법의 효율를 먼저 조사하는 것이고,
(아마 여기서 성공한다면, p-norm기반 유사도를 논문에 언급하겠지..)

아무튼.. 힘내야지... 어서 논문 쓰고 학교 공부 열심히 해야겠다.
이번학기까지는 학점이 잘 나와야 원서쓸때 무리없겠구나...

할일 2순위는... movie lens 데이터에 적용시키는 것!
신고
Posted by Kwang-sung Jun
2008.03.12 03:49

600위대 등극! netflix prize/기타2008.03.12 03:49


600위 등극! 영화의 분산을 고려하였다!
사용자 삽입 이미지
신고
Posted by Kwang-sung Jun
이제 슬슬 논문을 써야 하니까...


1. p-norm을 이용한 평균계산
2. movielens data 적용
3. 사용자들을 클러스터링 시켜서 그 성향을 반영하는 것
4. sftp이용해서 ml.ssu.ac.kr사용하기.
신고
Posted by Kwang-sung Jun
어설프게 짜던 php정리해야하는데 아직은 귀찮아하는듯한 내몸.

그동안 짜온 cpp파일을 총 합하니
5000줄..
어쩐지 vi로 관리하기 힘들더라니 ㅠㅠ

슬슬 eclipse로 개발환경을 바꾸어야 할듯.

크기가 커지니 이거 vi는 도저히 못써먹겠구...

검색때려봐도 규모 커지면 vi는 한계에 도달하는것이 눈에 보인다. 다른사람들 말도 그렇고.

마우스 + 키보드를 못쓰는 것도 어찌보면 한 몫하는 듯? ㅎㅎ

아 오랜만에 할땐 감잡는게 제일 힘들더라..




신고
Posted by Kwang-sung Jun
1. 다양한 p값으로 시도하기
2. 데이터 정규화 후 시도하기
3. 교수님께 엑셀파일 보내드리기
4. MovieLens 데이터에 적용시켜보기(probe set은 유져당 최근 5개의 rating을 가져오는 방식을 쓰자.Cross Validation도 언급하셨었다.)
5. 다음주 수요일 오후 2시 미팅.
6. 서버 아이다는 ksjun
신고
Posted by Kwang-sung Jun