Don't worry about failure. Worry about the chances you miss when you don't even try. (Gray Matter)

主辞(係り先名詞)に基づく政治課題抽出

研究がらみのはなしです.この研究はNYにいるときにしていた研究だけど,主辞を利用するのがとても良い(と思う)ので,見やすいものをつくってみた.

主辞(係り先の名詞)から政治課題を見る

基本は「2000語程度の(政治課題特有の)主辞」がよいところです.具体的には,pythonを使って,次のツールを利用して作してみた.

  1. python
  2. MeCab
  3. CaboCha
  4. kyotocabinet

<作り方>

Step1  会議録から1文ずつ抜き出しCaboChaで構文解析する

Step2 2,000語程度の単語を主辞とする表現を抽出する(微調整しています)

Step3 kyotocabinet に F「key:単語 value:頻度」W「key:単語 value:一つ前の単語(前の単語 出現頻度)群」 という形式で格納する

Step4 表示については,まず主辞となる2000語程度を表示し,選択された場合にはWのハッシュに「単語」を入れて,valueの一つ前の単語群を抽出し,splitして表示する

 

issue3

Comments are currently closed.