목록논문 스터디 (2)
기록하는삶
추천시스템의 핵심 과제는 질 좋은 추천을 제공하고, 초당 더 많은 추천을 제공하고, 데이터의 희소성(sparsity)이 있더라도 성공적으로 추천이 가능하도록 하는 것이다. 이 논문이 발행된 2010년을 기준으로 해당 시점까지 가장 각광받던 기술은 협업필터링(collaborative filtering)인데, 이는 기존 유저들의 데이터베이스를 바탕으로 신규 유저와 비슷한 유저가 좋아했던 상품을 신규 유저도 좋아할 것이라는 것을 전제로 추천하는 방법론이다. 이 논문 이전에 주를 이뤘던 방법으로는 유저의 직접적인 의견을 바탕으로 협업필터링 기법을 적용한 Tapestry, decision tree 기반의 Bayesian networks, 비슷한 유저를 묶는 Clustering, 유저를 node로 유저간 유사도를 ..
2017년 Attention is All you need 라는 이름으로 공개된 Transformer에 대해 공부하기 시작했는데, 정말 많은 사전 지식이 필요하다는 느낌을 받는다. 이전의 기계 번역의 과정과 문제점, 2016년 Attention의 활용에 대한 연구, 그것을 바탕으로 한 Transformer의 아이디어를 이해해보기 위해 꼭 이해해야하는 워드 임베딩과 어텐션의 개념을 정리해본다. 1) 워드 임베딩(Word Embedding) 기계가 자연어를 이해하기 위해서는, 당연히 우리가 사용하는 문자가 숫자로 바뀌는 과정, 즉 벡터화가 필요하다. 가장 단순하게는 원핫인코딩과 BOW(Bag of Words)로부터 각 단어를 맵핑하는 정수 인코딩 등의 방법이 있다. 원핫인코딩은 서로 다른 단어의 수 만큼 그 ..