集合知
集合知の本を読んでいってメモ
- 作者: Satnam Alag,堀内孝彦,真鍋加奈子,真鍋和久
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2009/03/27
- メディア: 大型本
- 購入: 13人 クリック: 295回
- この商品を含むブログ (64件) を見る
ソース
SBクリエイティブ:【ダウンロード】『集合知イン・アクション』
2、ユーザインタラクションの学習
集合知の収集
ユーザーとアイテム
コンテンツベース分析と協調フィルタリング
知の表現
類似度
3、タグづけ
スタッフによるもの |
ユーザによるもの |
自動生成によるもの |
タグづけの指針
- 可能であればタグ辞書を構築する。
- スタッフによるタグのみを扱うシステムでは、タグの重み付けはそのアイテムにつけられたタグの個数と、タグのIDFによって決まる。
- 3種のタグ生成源を混在させて用いることができる。
- タグづけのときに類義語辞書を作成すること。
ユーザによるタグづけから知識を抽出する例。
- 関連するアイテムはどれとどれ?
- あるユーザが関心を持つであろうアイテムはどれ?
- 新しいアイテムがあらわれたときに、それに関心を持つユーザは誰?
類似したタグを探す
- 潜在的意味インデクシング(LSI:Latent Semantic Indexing)による次元削減。
- LSIは類義語、多義語の問題を解決するために使われてきた手法。
4、コンテンツから知識を取り出す
コンテンツの分類
記事 |
商品 |
分類語 |
ブログ |
Wiki |
グループ機能、掲示板 |
写真と動画 |
投票 |
検索キーワード |
プロファイルページ |
ツールと帳票 |
チャットログ |
レビュー |
3行広告 |
リスト |
知識を抽出する
トークン化 | ターム取り出し。 |
正規化 | タームやフレーズを小文字にする。 |
ストップワードの除去 | 頻出するタームを除去。 |
ステミング | 複数形に対処するために、タームを語幹に変換する。 |
集合知の導出
属性の分類
連続(数量) | 実数をとる | 連続 | サイトを見ていた時間 |
順序 | 属性値と属性値のあいだには順序が存在する | 離散または連続 | 長、中、短 |
名義 | 属性ちと属性値のあいだには順序が存在しない | 離散 | 男、女 |