集合知(その3)
10、予測モデルをつくる
一般的な3つの分類アルゴリズム
回帰アルゴリズム
決定木
決定木で作成されたモデルはif-thenルール。
情報エントロピー
- 事例を全て正、または負に分類する属性は完全。エントロピー=(1,0)=0。
- 事例を、等しく、2つに分ける属性は、エントピー=(1,1)=1。
情報利得
- 1つ目の属性でデータを分割した時の情報エントロピーの減少=情報利得
ナイーブベイズ分類
確率論の基本的な概念。ある出来事が起こる確率は、0から1の間の数値。
数値が高いほど、その出来事が起こる確率も高い。
確率=Pr:probability
ベイズの定理
Pr{ A and B } = Pr{ A } Pr{ B | A } = Pr{ B } Pr{ A | B }
条件付き独立性を仮定して、事例ごとに予測をまとめたのがナイーブベイズ分類器?と理解。
ビリーフネットワーク
ビリーフネットワークは、ナイーブベイズ分析をグラフを用いて表記したもの
形式的には非循環有向グラフ(DAG:directed acyclic graph)。ノードは確率変数、ノード間のリンクは親と子のあいだの条件付き依存関係をあらわす。非循環有向ネットワークとも呼ばれる。
各ノードは親ノードがもたらす影響を数値化した条件付き確率表(CPT:conditional probablity table)を持つ。
単結合型と複結合型
単結合ネットワーク向けの推論アルゴリズム
- クラスタリング
- 場合分け
- 確率的シミュレーション
ベイズ法にもとづく確率の解釈
- 確率は一般的には「ある出来事が起こる頻度をあらわす」だが、
- ベイズ的解釈・主観的解釈は「ある出来事が起こるだろうと、ある人が信じる度合い」である
WEKA
分類器クラス
決定木、J48
weka.classifiers.trees.J48
ナイーブベイズ
weka.classifiers.bayes.NaiveBayesSimple
ベイズネット
weka.classifiers.bayes.BayesNet
回帰
線形回帰
多層パーセプトロン(MLP)
入力は第1層の各ノードに入る
1つのノードからの出力は2段階の演算で決定される
- ノードの各入力値に重みを掛けた値を合計
- この値を非線形活性化関数を使ってノードの出力値に変換
活性化関数
- シグモイド(sigmoid)や双曲線正接関数(tan hyperbolic function)
各ノードには閾値があり、ノードが出力するには入力と重みの積の総和が閾値を超える必要がある
通常、ニューラルネットワークの学習
- 誤差逆伝搬(back-propagation)アルゴリズムが使われる
- このアルゴリズムは勾配探索法(gradient search)を用いて、学習データと予測値の二乗誤差の和が最小になるように、ネットワークの重みを探索。
通常、局所的な最適解に収束するため、大域的な最適解に収束する保証はない
データを過学習する危険があるので、交差検定(cross-validation)で確認する
動径基底関数(RBF)
RBFは2層で構成。
- 入力空間から隠れユニット空間への変換は非線形
- 隠れユニット空間から出力空間への変換は線形
隠れノード
出力層ノード
RBFの学習
- 隠れ層での教師なし学習。通常ガウスクラスタの学習にはk平均法アルゴリズム
- 出力層での教師あり学習。出力層での学習は誤差逆伝搬法か逆行列演算のどちらか。
- ガウスクラスタから出力ノードへの結合重みは、線形回帰を用いて学習
学習速度が断然早い
WEKA
weka.classifiers.functions.LinearRegression
weka.classifiers.functions.MultilayerPerceptron
weka.classifiers.functions.RBFNetwork
集合知
集合知の本を読んでいってメモ
- 作者: Satnam Alag,堀内孝彦,真鍋加奈子,真鍋和久
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2009/03/27
- メディア: 大型本
- 購入: 13人 クリック: 295回
- この商品を含むブログ (64件) を見る
ソース
SBクリエイティブ:【ダウンロード】『集合知イン・アクション』
2、ユーザインタラクションの学習
集合知の収集
ユーザーとアイテム
コンテンツベース分析と協調フィルタリング
知の表現
類似度
3、タグづけ
スタッフによるもの |
ユーザによるもの |
自動生成によるもの |
タグづけの指針
- 可能であればタグ辞書を構築する。
- スタッフによるタグのみを扱うシステムでは、タグの重み付けはそのアイテムにつけられたタグの個数と、タグのIDFによって決まる。
- 3種のタグ生成源を混在させて用いることができる。
- タグづけのときに類義語辞書を作成すること。
ユーザによるタグづけから知識を抽出する例。
- 関連するアイテムはどれとどれ?
- あるユーザが関心を持つであろうアイテムはどれ?
- 新しいアイテムがあらわれたときに、それに関心を持つユーザは誰?
類似したタグを探す
- 潜在的意味インデクシング(LSI:Latent Semantic Indexing)による次元削減。
- LSIは類義語、多義語の問題を解決するために使われてきた手法。
4、コンテンツから知識を取り出す
コンテンツの分類
記事 |
商品 |
分類語 |
ブログ |
Wiki |
グループ機能、掲示板 |
写真と動画 |
投票 |
検索キーワード |
プロファイルページ |
ツールと帳票 |
チャットログ |
レビュー |
3行広告 |
リスト |
知識を抽出する
トークン化 | ターム取り出し。 |
正規化 | タームやフレーズを小文字にする。 |
ストップワードの除去 | 頻出するタームを除去。 |
ステミング | 複数形に対処するために、タームを語幹に変換する。 |
集合知の導出
属性の分類
連続(数量) | 実数をとる | 連続 | サイトを見ていた時間 |
順序 | 属性値と属性値のあいだには順序が存在する | 離散または連続 | 長、中、短 |
名義 | 属性ちと属性値のあいだには順序が存在しない | 離散 | 男、女 |
推薦
おすすめ
ブックマークから
(未検索時に表示)
あなたの好みに似ている人
ブックマークから
✖️✖️を見た人はこれも見ています
閲覧ログから
他人のブックマークが見れるとよい
入門ソーシャルデータ
Graphvis
Protovis
https://github.com/ptwobrussell/Mining-the-Social-Web
集合知インアクション
集合知プログラミング
うちの子のしつけ
うちの子どもに躾できていない。対策を検討。
状況
一般的なこととして、
- 子ども自身で時間管理することは難しい。
- 子ども自身の話をきちんと聞いてあげるのが大事。
- 叱ると怒るは別もの。
- 暴力でなく、しつけとして手を出すこともある。
- 男の子は口べた、女の子は口が達者。
うちの特徴として、
- 色々と口うるさい。
- テレビ以外に子ども一人で楽しめることがない(?)
- 年の離れた下の子がいる。
- 上の子にとって遊び相手でなく面倒見る相手。何かあると自分ばかり怒られる。
- 親が決めた1週間毎日守れと言っているルールを完全に守れないと、3DSできない(まれにやらせてもらえているみたい)
うちの子の特徴として、
- ごめんなさいを言わない。
- 自分が悪いと思っていないか、自分より他の人のほうが悪いから自分は悪くないと思っている。
- 四六時中ソファーでゴロゴロ。
- 「デザートは?」がしつこい。
- 無いと「ハぁ!?なんでぇ!?」と言う(言われる側はムカつく)。
- 「DVD見ていい?」がしつこい。
- おとうとが「テレビ見たくない」と言うと、「xxxしてあげるからさぁ」とか言って見させるのに、言ったことを実行しない。
- 本人に間違いがないのに「ハぁ!?知らんし!?」と言う。
- はたから見て本人が悪いのに「オレちげーし」「オレじゃねーし」「オレ悪くないし」。
- 叱られて、捨てる・出て行け・出て行く・自分でやれとオドされても「すればぁ!?」「べつにいいし」
つまり、
- ほとんどのことは、自分は悪くない、他人が悪い
- グゥたら
- 言われたことをやらない、自分で言ったこともやらない
- クチが悪すぎる
検討
検討中。
コンビナトリアルテクノロジー
コンビナトリアルテクノロジー―明日を開く“もの作り”の新世界
- 作者: 鯉沼秀臣,川崎雅司
- 出版社/メーカー: 丸善
- 発売日: 2004/08
- メディア: 単行本
- クリック: 2回
- この商品を含むブログ (1件) を見る
コンビナトリアルテクノロジーを読みました。少し。