gocha124の日記

ごちゃごちゃ書きます

集合知

集合知の本を読んでいってメモ 

集合知イン・アクション

集合知イン・アクション

 

ソース

SBクリエイティブ:【ダウンロード】『集合知イン・アクション』

2、ユーザインタラクションの学習

集合知の収集

ユーザーとアイテム

  • アイテムは記事、写真、動画など
  • アイテムはメタデータを持つ
  • メタデータはキーワード、タグ、評価、属性など
  • メタデータの情報源は属性ベース、コンテンツベース、ユーザアクションベース

コンテンツベース分析と協調フィルタリング 

知の表現

類似度

  • コサインベースの類似度計算は、ベクトルの内積
  • 相関ベースの類似度計算は、ピアソンの相関係数r。-1〜1。
  • 調整コサインベースの類似度計算。

 

3、タグづけ

スタッフによるもの
ユーザによるもの
自動生成によるもの

タグづけの指針

  • 可能であればタグ辞書を構築する。
  • スタッフによるタグのみを扱うシステムでは、タグの重み付けはそのアイテムにつけられたタグの個数と、タグのIDFによって決まる。
  • 3種のタグ生成源を混在させて用いることができる。
  • タグづけのときに類義語辞書を作成すること。

ユーザによるタグづけから知識を抽出する例。

  • 関連するアイテムはどれとどれ?
  • あるユーザが関心を持つであろうアイテムはどれ?
  • 新しいアイテムがあらわれたときに、それに関心を持つユーザは誰?

類似したタグを探す

4、コンテンツから知識を取り出す

コンテンツの分類

記事
商品
分類語
ブログ
Wiki
グループ機能、掲示板
写真と動画
投票
検索キーワード
プロファイルページ
ツールと帳票
チャットログ
レビュー
3行広告
リスト

 知識を抽出する

トークン化 ターム取り出し。
正規化 タームやフレーズを小文字にする。
ストップワードの除去 頻出するタームを除去。
ステミング 複数形に対処するために、タームを語幹に変換する。

集合知の導出

属性の分類

連続(数量) 実数をとる 連続 サイトを見ていた時間
順序 属性値と属性値のあいだには順序が存在する 離散または連続 長、中、短
名義 属性ちと属性値のあいだには順序が存在しない 離散 男、女