こんにちは。ワークスアイディの奥西です。
生成AIの勢いが凄いですね。
企業が多額の投資と研究を行い、AI時代の競争が激化しています。
日本国内においても、国産LLMのリリースがいくつかの企業でも発表されていますね。
少し宣伝ですが、ワークスアイディも
東京大学 松尾研究室発のスタートアップ企業neoAI のサービス「neoAIChat」を法人向けにAI支援をスタートしました。
生成AIのニュースを見ると「パラメータ」という用語が必ず出てきますよね。
本日は
大規模言語モデル(LLM)と小規模言語モデル(SLM)
LLMとは
人工知能(AI)の進展により、私たちの日常生活やビジネス環境は急速に変化しています。
その中心にある技術の一つが
大規模言語モデルとは、多数の
代表的なもので言うと、ChatGPTやClaude、Geminiなどがこれにあたります。
このモデルは、文章の生成や翻訳、要約、質問応答など、幅広いタスクに利用されますよね。
現在の大規模言語モデルが、従来の言語モデルと違うのは、「学習データ量」「計算量」「パラメータ量」(後述)が大きく異なるということです。
これらが大幅に増幅したことで、精度が格段に向上しました。
SLMとは
最近では、特定タスクの処理を得意とする軽量型の言語モデル、
LLMは汎用的なデータを学習するのに対し、
SLMは
例えばフィットネス企業だと、ユーザーに提供しているアプリケーションに
スポーツ論文やトレーニング手法、食事療法などを中心に学習をさせた独自SLMを搭載することで、
専門分野にのみ特化した独自のサービスを誕生させることができます。
SLMはLLMと比べて小規模なので、開発コストや学習時間が短縮され使い勝手が良さそうです。
今後、企業が提供するサービスの基盤にSLMを活用する用途が増えていきそうですね。
パラメータの役割
大規模言語モデルの性能は、「学習データ量」と「パラメータ数」に大きく依存すると言われています。
学習データ量とは
モデルが学習するために使用されるデータの総量です。
多くの場合、このデータは主にインターネットの情報から収集されています。
学習データが多ければ多いほど、モデルは多様なパターンを学習し、より正確な予測や生成を行うことができます。
パラメータ数とは
正確な結果を出せるようにする為の、モデルの内部で調整される変数(=パラメータ)の数のこと。
要するに
これらの数値は、入力データから出力データを生成する際の計算に使用されます。
パラメーター数が多いほど、モデルはより細かいニュアンスや複雑な関係性を学習することができます。
一方で、パラメータ数が増えると計算資源(メモリ、計算時間)やデータの必要量も増加してしまいます。
モデルの設計には、性能とリソースのバランスを取ることも重要そうですね。
先述したSLMのように少ないパラメータでも、高い性能を発揮するモデルも開発されていますし、
最近の研究ではパラメータ数だけでなく、効率的なアーキテクチャやトレーニング手法も重要視されているようにパラメータ数が多ければ多いほど良い、というものでもなさそうです。
LLMのパラメータ数
例えば、有名な言語モデルChatGPTのパラメータ数はどれくらいなのか?
具体的な数字を知りたいところですが、実はGPT4oのパラメータ数は非公開となっています。
推定では5000億とも1兆とも言われていますが……憶測の域を出ません。
GPT-1では1.17億、GPT-2では15億、GPT3.5の時は1,750億パラメータと言われていました(これも推定ですが)。
GPT4oだとどれぐらいのパラメーター数になっているんでしょうか。
GPT5になると10兆という単位に進化しているかもしれないですね。
パラメータ数を公開しているLLMだと、
Meta社のLlama3がパラメータ数80億と700億のモデルを発表し、
いくつかの項目でGemini 1.5ProやClaude 3よりも優れているとしています。
ちなみに一般的なSLMのパラメータ数は数十億程度と言われています。
パラメータ数増加に伴うメリット
LLM(大規模言語モデル)のパラメータ数が増加することによるメリットについて、解説します。
1. 表現力が向上
パラメータ数が多いモデルは、複雑なパターンや関係性をより詳細に学習できます。
これにより、データ内の微妙なニュアンスや多様な構造を捉えることが可能になります。
2. 汎化能力の向上
パラメータ数が増えることで、モデルはトレーニングデータから学んだ知識を、より効果的に新しいデータに適用できます。
新しいトピックや語彙が含まれる文書でも、高い精度で理解し、適切な応答を生成することができます。
3. 多様なタスクへの適応
多数のパラメータを持つモデルは、多様なタスクに対して一つのモデルで対応可能です。
異なるタスクに対して専用に調整されることなく、広範な問題に対応できます。
4. パフォーマンスの向上
パラメータ数が多いほど、モデルはより精細な特徴を捉えられるため、タスクごとのパフォーマンスが向上します。
音声認識や画像認識において、高精度な結果を提供することで、パフォーマンスが上がります。
5. 学習の効率化
パラメータ数が多いモデルは、より大規模なデータセットを効率的に学習できるため、
広範な知識を蓄積し、精度の高い予測や生成が可能になります。
ウェブ全体から収集したデータを学習し、人間に近い自然な対話を実現します。
まとめ
大規模言語モデル(LLM)は、大量の学習データと膨大なパラメーター数を持ち、
自然言語処理のタスクにおいて高い性能を発揮してくれます。
ビジネスにおいても、大規模言語モデルを活用することで、
顧客対応の自動化、マーケティングの効率化、技術文書の管理など、多岐にわたる応用が可能です。
パラメータ数の増加による、メリットについてもなんとなく理解できたかなと思います。
今後はこの基盤モデルを活用して、
誰にどのように喜んでもらえるのか、サービスとしての価値提供を実現していくことが重要ですね。
是非、皆さまの会社でも「生成AIの活用について」議論してみてください。
本日もGOOD JOB!!
▼こちらもおすすめ