例えば、ユーザが映画を評価できるようなWebサイトがあったとします。このとき、ユーザは全映画を評価しているかと言えばそんなことはなく、ごく一部の映画しか評価していません。つまり、大部分の映画評価データが欠損していることになります。このような欠損値のあるデータに対して、もし仮に素の非負値行列因子分解(NMF)を用いた協調フィルタリングを試そうと考えた場合、欠損値を別の値($0$や平均値など)で埋めてから実行することになります。この埋め方で何か変わるのでしょうか?この記事ではまず、埋め方によって学習結果にどのような影響があるのかを調査します。その後、欠損値を埋めないでNMFが行える手法の1つである重み付き非負値行列因子分解(WNMF)を紹介します。
[Read More]推薦アルゴリズムを試す準備のためのMovielensデータセットのダウンロードと読み込み方法
推薦アルゴリズムのベンチマークとしてMovielensと呼ばれるデータセットがあります。
この記事では推薦アルゴリズムを試す事前準備として、Movielensの軽量データセット(MovieLens 100K Dataset)をPythonのpolarsで読み込む方法について解説します。