やっと発表資料送付。自分的には力作です。練習では目標時間15分ちょうど。がんばりま~す。

さて、土曜日はこんなイベントに参加してきました。

筑波大学大学院ビジネス科学研究科オープンキャンパス

これから学校に通うのは無理だと思うのですが、お目当ては模擬授業「インターネット時代のマーケティングとデータマイニング」(吉田健一教授)。

ネタの一つが、テレビ番組でどのタイミングで何に注目されているかをどう判断するか。
普通に考えると、機械の力を借りるにしろアンケーをとるにしろ、時間ごとの視聴数を取得して、それぞれのタイミングで何をやっていたかと突き合わせる。
それぞれのタイミングで何をやっていたかは、各時間にアノテーションを付ける。すなわち、○時○分に何をやっていた、というコメントをどんどんつけていく。ただ、さすがにそれをビデオを見ながら人手で付けていくのはつらいので、料理番組ならレシピがあればだいたい付けられるし、ドラマならシナリオからつける。これが従来型。
これに対して、2chの実況板は、人気番組だと1時間に2万とかレスが発生するので、簡単な言語解析をして言葉を数えると一気に相当精度の高い分析ができる。そんな話でした。

まず一つ思ったのは、普段の仕事でこれを生かせるのは何か。すなわち、類似データが大量に集められて、それをカウントすることで分析できることは何か。
例えば、新しいサービスを考える際に、その分野で経験のある社員を集めて何をやったらよいかを聞いたりすると思います。しかし、そこはバイアスがかかり過ぎるというのは事実。自分が直接言われたことがある等主観が強すぎるわけです。
そうではなく、たとえば、関連プロジェクトのすべての議事録を集めてテキスト化し、「できない」「やりたい」みたいな単語をカウントすると、客観的に求められている事実が抽出できるのではないか。そんなことを考えました。

もう一つ思ったのがニコニコ動画の存在。面白いと思わせる仕組みがあれば、人は勝手にアノテーションを付けてくれるわけですね。

あとは、今回知った言葉として、10fold Cross Validation。工学としてのテスト、みたいなことを今後考えていく場合、経験だけではだめで、知識としてこの辺も必要なのかななんてことを思いました。
http://q.hatena.ne.jp/1131250565