現代を一言であらわすと、人類史上最高に他人の家の猫を眺めている時代だということができます。
というわけで、ペット系YouTubeチャンネルのデータを使って何かしたいと思い、リサーチの分野では使い勝手がいいのにあまり見かけない、主成分分析の座標プロットについてご紹介します。
主成分分析というと、なんとなく因子分析の一種的な捉えられ方をしていることが多い気がするのですが、コレスポンデンス分析/コレスポンデンス・マップやMDS(多次元尺度法)的に使うこともできます。
詳しく勉強したい方は、大隅・ルバール「記述的多変量解析法」を探して読んでください。Rのパッケージだと、FactoMineRやfactoextraというパッケージがそれ用に作られています。
データはクリエイターニンジャ社のTUBERSというサイトhttps://creators.tubers.app/japanから登録者数上位50のチャンネルデータをスクレイピングしました。
変数は8つあり、登録者数、再生回数、ビデオ数などはその名のとおりです。
エンゲージメント率とは、動画の高評価数+コメント数を再生回数で割ったものです。要は動画視聴者が能動的に関わった割合といえます。
また、評価率は高評価数÷総評価数です。
元のデータには8変数×50チャンネルで総計400の数字があるわけですが、400個も数値を読むのはめんどくさいので、ざっと全体を俯瞰したい、というときに主成分プロットは役立ちます。
というわけで、ペット系YouTubeチャンネルのデータを使って何かしたいと思い、リサーチの分野では使い勝手がいいのにあまり見かけない、主成分分析の座標プロットについてご紹介します。
主成分分析というと、なんとなく因子分析の一種的な捉えられ方をしていることが多い気がするのですが、コレスポンデンス分析/コレスポンデンス・マップやMDS(多次元尺度法)的に使うこともできます。
詳しく勉強したい方は、大隅・ルバール「記述的多変量解析法」を探して読んでください。Rのパッケージだと、FactoMineRやfactoextraというパッケージがそれ用に作られています。
データはクリエイターニンジャ社のTUBERSというサイトhttps://creators.tubers.app/japanから登録者数上位50のチャンネルデータをスクレイピングしました。
変数は8つあり、登録者数、再生回数、ビデオ数などはその名のとおりです。
エンゲージメント率とは、動画の高評価数+コメント数を再生回数で割ったものです。要は動画視聴者が能動的に関わった割合といえます。
また、評価率は高評価数÷総評価数です。
元のデータには8変数×50チャンネルで総計400の数字があるわけですが、400個も数値を読むのはめんどくさいので、ざっと全体を俯瞰したい、というときに主成分プロットは役立ちます。
上が分析結果による変数のプロットです。分析によって出てきた各軸との相関の位置に変数がプロットされています。相関はー1,1を超えることはないので、半径1の円が書かれています。
横軸(Dim1、1軸、1次元目などという)は、「ビデオ数増減」「再生回数」「再生回数増減」といった変数との相関が高く(相関の大きさは、各変数の矢印の先から横軸に垂線を落とすように考えます)、<チャンネルの活発さ>とでも名付けられる軸になっています。
縦軸(2軸)に相関するのは、プラスの方向で「エンゲージメント率」「評価率」、マイナスの方向で「登録者数」「再生回数」となっていますから、<コアチャンネル⇔メガ(BIG)チャンネル>の軸とでも名付けます。
1軸のところにある30.1%という数字は、データ全体の何%をこの軸で集約できているかという割合です。2軸と合わせると約55%がこの図で表せているということができます。
もともとは8変数=8次元なので、2つの変数だと25%しかわからないのが、55%わかるようになったというわけです。また、「55%しかわからないのか・・・」と失望することはありません。残りの45%はノイズと誤差、ということもありますので。
もし意味がありそうなら、3軸も使って1軸×3軸、2軸×3軸といったプロットを作ることもよくあります。(3次元=立体でも作れますが、くるくる回さないと見づらいので、2次元の図の方が便利です。)
原点近くに「Watch」という青いベクトルがありますが、これは筆者が見ているチャンネルの平均です。原点近くなのであまり特徴がない、しいていえばやや活発でコアチャンネル的なチャンネルを見ているといえます。
このように、座標空間の中に別のベクトルを追加して配置する、ということもできます(もちろん、元データの行か列と共通する要素を持っていないとできないが)。
横軸(Dim1、1軸、1次元目などという)は、「ビデオ数増減」「再生回数」「再生回数増減」といった変数との相関が高く(相関の大きさは、各変数の矢印の先から横軸に垂線を落とすように考えます)、<チャンネルの活発さ>とでも名付けられる軸になっています。
縦軸(2軸)に相関するのは、プラスの方向で「エンゲージメント率」「評価率」、マイナスの方向で「登録者数」「再生回数」となっていますから、<コアチャンネル⇔メガ(BIG)チャンネル>の軸とでも名付けます。
1軸のところにある30.1%という数字は、データ全体の何%をこの軸で集約できているかという割合です。2軸と合わせると約55%がこの図で表せているということができます。
もともとは8変数=8次元なので、2つの変数だと25%しかわからないのが、55%わかるようになったというわけです。また、「55%しかわからないのか・・・」と失望することはありません。残りの45%はノイズと誤差、ということもありますので。
もし意味がありそうなら、3軸も使って1軸×3軸、2軸×3軸といったプロットを作ることもよくあります。(3次元=立体でも作れますが、くるくる回さないと見づらいので、2次元の図の方が便利です。)
原点近くに「Watch」という青いベクトルがありますが、これは筆者が見ているチャンネルの平均です。原点近くなのであまり特徴がない、しいていえばやや活発でコアチャンネル的なチャンネルを見ているといえます。
このように、座標空間の中に別のベクトルを追加して配置する、ということもできます(もちろん、元データの行か列と共通する要素を持っていないとできないが)。
この図は、先の座標空間上の各チャンネルの位置(「布置」という言い方をします)です。
筆者が見ているのは「ももと天空」「リキリコとリムタクーノ」「ちょりちゃみ」「ねこほうチャンネル」などなので、それほどメガチャンネルではなく、まあまあ活発な方のチャンネルを見ているということがわかります。
本当はずっと右のほうに「感動猫動画」という異常に活発なチャンネルがあるのですが、見づらくなるので割愛しています。
▲
筆者が見ているのは「ももと天空」「リキリコとリムタクーノ」「ちょりちゃみ」「ねこほうチャンネル」などなので、それほどメガチャンネルではなく、まあまあ活発な方のチャンネルを見ているということがわかります。
本当はずっと右のほうに「感動猫動画」という異常に活発なチャンネルがあるのですが、見づらくなるので割愛しています。
▲
7 件