キーフレーズ抽出で振り返る2022年の業界別ニュース

Tags
キーフレーズ抽出で振り返る2022年の業界別ニュース
Page content

本記事は、Stockmark Advent Calendar 2022 の 12 日目の記事です。


年の瀬といえば流行語大賞ですね。今年 2022 年も 大谷ルール や オミクロン株 などいろいろな流行語が世間を賑わせました。

弊社サービス Anews もこの1年を通して様々なニュースをお客様に届けてまいりました。 振り返ると、コロナウイルスやロシア・ウクライナ危機、サステイナビリティに対する関心の高まり、原材料の高騰問題などお客様のビジネスに大きな影響を与えるニュースがたくさんありました。

そこで今回は弊社サービス Anews でこの1年で配信されたニュース記事に対してキーフレーズ抽出を行い、2022年のトレンドを振り返ってみたいと思います。 またこの記事の後半ではキーフレーズを抽出するロジックについても解説します。

Anews について

ストックマークはAI 情報収集プラットフォーム Anews を運営しています。 Anews は国内外約 35,000 サイトからニュースを収集し、ビジネス活動を行うお客様に毎日配信するサービスです。

Anews の人気機能の1つに 業界ニュース があります。 業界ニュースは Anews で配信しているニュースから各業界に関するニュースをピックアップして届ける機能です。 今回はこの業界ニュースで採用している各業界区分からキーフレーズを抽出したいと思います。

業界別2022年のキーフレーズ

まず各業界のキーフレーズトップトップ5をご紹介します!キーフレーズの抽出方法およびランキング方法はこの記事の後半で説明します。

業界キーフレーズトップ5
輸送機械自動運転, 電気自動車, ガソリン車, CO2, 車中泊
半導体・電子機器充電器, 5G, 太陽電池, イオン電池, 探索機
総合電機5G, 清浄機, 顔認証, 再エネ, 非接触
金属太陽電池, リチウムイオン電池, 全固体電池, 脱炭素, 車載型
化学CO2, 生分解, プラごみ, 環境配慮, 脱炭素
医療・製薬検査キット, 抗原検査, PCR検査, 遺伝子検査, 不妊治療
IT暗号資産, クラウド, 仮想通貨, 5G, 脆弱性
食品代替肉, 食品ロス, 陸上養殖, 生分解, 国産大豆
エネルギー太陽光発電, 洋上風力, バイオマス, 再エネ, 燃料電池
銀行・金融暗号資産, 仮想通貨, キャッシュレス, 取引所, ビットコイン
保険自動運転, 電気自動車, シェアサイクル, 高齢者, 認知症

抽出したキーフレーズから、複数業界にまたがったトレンドがいくつか見えてきました。

電気自動車     今年は電気自動車にまつわるニュースが多くの業界を賑わしました。 輸送機械業界と保険業界はともに電気自動車がランクイン。 また輸送機械では従来の車が “ガソリン車” として出現していることにも注目です。 金属業界でも車載型がランクイン。 蓄電池関連のキーフレーズも多く見られます。

コロナウイルス     医療・製薬業界では 検査キット・抗原検査・PCR検査 とコロナウイルス関連のキーフレーズが上位を占めました。 総合電機業界でも 洗浄機・非接触 がランクイン。 こちらもコロナウイルス流行にともなうトレンドを反映しています。

サステイナビリティ     脱炭素・再エネ が化学・エネルギー資源・総合電機・金属業界でランクインしました。食品業界でも食品ロスがランクイン。サステイナビリティに関するニュースが多く見られた一年となりました。

キーフレーズの抽出

次にキーフレーズの抽出方法について説明します。

集計元のニュース記事     今回は弊社が 2022 年一年間にクロールした記事を業界ニュース機能で使用しているアルゴリズムを用いて分類し、それぞれの業界に分類されたニュース記事からランダムに 10 万件をサンプルして解析しました。

キーフレーズ抽出: NPMI     今回のキーフレーズ抽出では Pointwise Mutual Information (PMI) を正規化した NPMI (Bouma 2009) を使用しました※1。 PMI は2つの確率離散変数 \( X \) , \( Y \) の事象 \( x \), \( y \) についてその確率分布 \( p(x) \) , \( p(y) \) と同時分布 \( p(x, y) \) が与えられた場合に次のように定義されます。

$$ \mathrm{PMI}(x, y) = \log \frac{ p(x, y) }{ p(x) p(y) } $$

ここで \(p(x)\), \(p(x, y)\) をそれぞれ unigram \(x\), bigram \(xy\) のコーパス上での出現確率とし、unigram \(v\), \(w\) に対して \( \mathrm{PMI} (v, w)\) を考えてみます。 すると PMI の値が高い場合、bigram \(vw\) は偶然連続して出現した列ではなく、フレーズとして出現した可能性が高いと解釈できます。 この式を trigram, four-gram, … と再帰的に用いることで、ngramの “フレーズらしさ” を求めることができます。

一方で PMI の値のスケールはコーパスによって異なるため、\(vw\) をフレーズとするかどうかの PMI の閾値を決定するのは簡単ではありません。 そこで今回は PMI を区間 \([-1, 1]\) で正規化した NPMI を用います。

$$ \mathrm{NPMI} (v, w) = - \frac{ \mathrm{PMI} (v, w)}{ \log p(v ,w) } $$

今回は n によらず※2 NPMI が 0.5 以上になる n-gram をフレーズとして抽出しました。※3

キーフレーズ抽出アルゴリズムの選択     キーフレーズ抽出は様々な方法が提案されています (Husan and Ng 2014) が、今回は以下あげる点を考慮して NPMI を選択しました。

  • 教師データがないため、unsupervised で行いたかった
  • 本タスクでは新出語を多く扱うため、過去のコーパスで学習された言語モデルの embedding は上手く機能しない場合があった

キーフレーズのスコアリング

最後に、抽出したフレーズをランクするために用いたスコア関数を説明します。 \( p \) をフレーズ、\( i \in I \) を業界、 \( N_i \) を 業界 \(i \) のニュース集合、 \( \mathrm{freq} (p, C) \) をコーパス \( C \) における \( p \) の出現頻度とします。 今回はフレーズ \( p \) の業界 \( i \) におけるスコア \( s(p, i) \) を次のように定めました。

$$ s(p, i) = \log \mathrm{freq} (p, N_i) * \frac{ \mathrm{freq} (p, N_i) }{ \sum_{i \in I} \mathrm{freq} (p, N_i) } $$

上式において、前半の項はフレーズ \(p\) の出現頻度を表しています (スケールを調整するために対数を取りました)。 後半の項はフレーズ \(p\) が出現した文書が業界 \(i\) のものである確率で、\(p\) がどの程度業界 \(i\) に偏って出現するか、を表します。 今回は各業界で特有のキーフレーズを抽出したいため、このような偏りの指標を導入しました。 なおこの後半の項がない場合、あらゆる業界業界も “コロナウイルス” “ロシア・ウクライナ” といったフレーズが上位にランクインしました。

さいごに

今回はキーフレーズ抽出アルゴリズムを実際のニュースコーパスに適用して流行したフレーズを抽出してみました。 このようにストックマークには クローリングチームの成果によって 豊富な言語資源があります。 NLP の技術を実データに適用して価値を生み出してみたい方はぜひ 採用ページ もご覧ください!

Posted by: Wataru Hirota

参考文献

  • (Bouma 2009) Gerlof Bouma. Normalized (Pointwise) Mutual Information in Collocation Extraction. In Proceedings of the Biennial GSCL Conference 2009.
  • (Husan and Ng 2014) Kazi Saidul Hasan and Vincent Ng. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics 2014.

※1 nPMI を用いたキーフレーズ抽出に関しては こちらのブログ記事 を参考にしました。
※2 実際には n=6 までで探索を行いました。
※3 企業名やノイズとなる n-gram は一部手動で取り除きました。