最近の話題にも詳しい14億パラメータの日本語LLMの公開

Tags
最近の話題にも詳しい14億パラメータの日本語LLMの公開

Research部門の近江崇宏です。

今回、ストックマークは最近の話題にも詳しいGPT-NeoXをベースとした14億パラメータの日本語のLLM(大規模言語モデル)をオープンソースとして公開します。モデルはHugging Face Hubからダウンロードいただけます。

https://huggingface.co/stockmark/gpt-neox-japanese-1.4b

当社はビジネスにおける情報収集・分析をサポートするサービスを運営しており、そのために最新のWebデータの収集を日々行なっております。今回の事前学習では、一般にLLMの事前学習によく使われるCommon Crawl由来のデータだけでなく、当社が所有している独自のWebデータ(2023年6月まで)も含めて事前学習を行うことで、最近の話題にも詳しいモデルを開発しました。具体的には、事前学習に用いたデータセットはCC100の日本語サブセット、Wikipediaの日本語版、当社独自の日本語Webデータから構成されています。コーパス全体でのデータ量は約200億トークンで、そのうち当社独自のWebデータは約90億トークンほどです。モデルのアーキテクチャの詳細などは以下をご覧ください。

https://huggingface.co/stockmark/gpt-neox-japanese-1.4b/blob/main/config.json

また、今回の事前学習モデルの構築は国立研究開発法人産業技術総合研究所(産総研)との共同研究の一環で行われ、事前学習も産総研の計算インフラストラクチャであるABCIで行われました。

当社は今後も大規模言語モデルを活用したサービスの向上を進めていくだけでなく、研究開発で得られた言語資源の公開などを行うことにより、日本語の自然言語処理の発展に貢献します。

実際の出力例

今回は、2021年9月までのデータにより学習されているChatGPT(つまり最近の話題については知らない)と本モデルに対して、最近の話題を入力してその出力を比べてみました。

また、当社のモデルはInstruction tuningをしていないので、必ずも質問に対する回答の体を成していないこともあります。また出力に事実でないことが含まれることには注意が必要です。

お題1: 「最近の画像生成AIをいくつか教えてください。」

当社のモデルは、2022年以降に登場したStable DiffusionやMidjourneyなどのモデルを知っていることがわかります。

本モデルの出力

「Stable Diffusion」は、テキストから画像を生成するAIで、「Midjourney」「DALL・E2」「Stable Diffusion 2.0」などが有名です。「Google Colaboratory」で試すことができますが、GPUやメモリなどのリソースを消費するので、今回は割愛します。
「Midjourney」は、入力したテキストを学習して画像を生成してくれるサービスです。日本語にも対応していますし、無料で使えるので試してみてはいかがでしょうか?
「Stable Diffusion」は、テキストを入力するとそれをもとに画像を生成してくれます。こちらも無料なので試してみてください。

ChatGPTの出力

申し訳ありませんが、私の知識は2021年の9月までのものであり、最新の情報は提供できません。2021年までの時点で、いくつかの人気のある画像生成AIは以下の通りです:
DALL-E: オープンAIによって開発されたAIで、テキストの指示に基づいて画像を生成することができます。例えば、「ピンク色の雲の上に浮かぶ眼鏡をかけたカエル」などの指示を与えると、それに合った画像を生成します。
StyleGAN: NVIDIAによって開発されたAIで、特にリアルな顔写真の生成に優れた性能を持っています。StyleGAN2やStyleGAN2-ADAなどのバージョンもあります。
BigGAN: Google Brainによって開発されたAIで、高解像度な画像を生成することができます。大規模なデータセットを使って高品質な画像を生成します。
VQ-VAE-2: DeepMindによって開発されたAIで、高品質の画像生成とベクトル量子化技術を組み合わせています。
これらは2021年までのものであり、その後も多くの新しい研究や開発が進んでいることでしょう。最新の情報を得るには、2023年現在の情報源や研究論文などを調査することをお勧めします。

お題2: 「ラピダスはどのような企業?」

ラピダスは2022年に設立された日本の半導体メーカですが、当社のモデルは事業内容や出資した企業など正しく答えられました。(ただし、正確には設立は6月ではなく8月です)

本モデルの出力

「日本の半導体産業の復活」をうたう、次世代半導体の国産化を目指す新会社。その名は「Rapidus」。2022年6月7日、トヨタ自動車やNTTなど8社が出資して設立された。

ChatGPTの出力

私の知識は2021年9月までの情報に基づいているため、"ラピダス"という企業について直接的な情報は持っていません。もし、それが私の知識の範囲外の新しい企業である場合や、他に何か具体的な情報があれば、それに基づいてお答えすることができるかもしれません。
一般的に企業に関する情報を知りたい場合は、インターネット検索エンジンを使って最新の情報を調べることをおすすめします。そうすることで、ラピダスについてより詳細な情報を見つけることができるかもしれません。

皆様も、色々と試していただければ幸いです!

最後に

今回の14億パラメータの日本語LLMの公開に伴い、LLMの自作・活用方法をソフトウェアエンジニア向けにシェアします! 機械学習・自然言語処理の知見をお持ちでない方にもわかりやすくお伝えしますのでぜひご参加ください!

参加登録は下記URLよりお願いいたします。

https://stockmark.connpass.com/event/292468/