自然言語処理研究者である私の最後の課題 Transformer 【寄稿】理工学研究科（工学野）教授　新納浩幸

Text by 新納浩幸（理工学研究科（工学野）教授）
SHINNOU Hiroyuki／1961年生まれ。1987年東京工業大学情報科学研究科修了（修士）。富士ゼロックス株式会社、松下電器産業株式会社を経て、1993年茨城大学工学部に着任。1997年博士（工学）を取得後、現在に至る。「NHK の『ダーウィンが来た！』のファンです。動物は何でも好きですが、犬が特に好きです。引退後は動物保護に関わりたいと思っています」

自然言語処理の大きな変化

　私は大学卒業以来これまで、職場は色々変わっても、一貫して自然言語処理の研究を行ってきました。私たちが日常生活で使っている自然な言語を、機械でどうやって処理するか、という研究です。もう 30 年以上になります。
　ただし、研究分野は変わっていないものの、その中身には何度か大きな変化が起きました。自然言語処理の技術をめぐる一番大きな変化はもちろん、2012 年に起きたディープラーニング（深層学習）の逆襲でした。「逆襲」と呼ばれる理由は長くなるのでやめておきますが、ともかく、ディープラーニングの登場で、自然言語処理の研究が激変したのです。
　人間の手を介さず、コンピュータ自身が大量のデータから深く学習するというディープラーニングの技術は、分散表現、LSTM（Long Short Term Memory：長・短期記憶）、そして Seq2Seq（Sequence To Sequence）などいろいろと発展してきましたが、これらはそれまでに積み上げられていた自然言語処理分野の技術を吹き飛ばしました。
　さらに、それにとどめを刺したのが、2018 年 10 月に Google が発表した事前学習済みモデル BERT（バート）です。

BERTの名はセサミストリートのキャラクターのバートにも由来する（上図は広報室のスタッフが描いたバートのイメージ）

　このBERT を利用するだけで、様々な自然言語処理タスクの精度が一気に向上したのでした。一部のタスクでは人間の出すスコアを超えており、マスコミでも話題になりました。
　BERTは、「Bidirectional Encoder Representations from Transformers」の頭文字です。日本語では、Transformerによる双方向のエンコード表現、ということです。
　2017年にGoogleが"Attention is all you need"という論文を出しました。この論文で提案された機械翻訳システムの、エンコーダー部分がBERTです。ディープラーニングにおける「Attention」というのは、入力されたデータのどこに注目すべきかを特定する機構のことです。"Attention is all you need"というタイトルはかなり挑発的ですが、内容はまさにそれに見合うものでした。そこで示された Attention を基本操作としたデータ列の変換機構が Transformer と呼ばれ、Transformer の代表例が BERTというわけです。
　BERT 登場以後、現在まで、自然言語処理の研究分野は Transformer を中心に進められている感じです。また Transformer は強力であり、文字情報だけでなく、画像や音声の分野にも導入され、それらの分野でも大きな成果を次々と出しています。人間の知覚情報処理は Transformer の技術で統一的にモデル化できる可能性も出てきています。

人間の理解を超えるTransformer

　2020 年、Transformer を応用した GPT-3 という言語モデルが、OpenAI（人工知能を研究する非営利団体）から発表されました。これは約 570GB のテキストから学習され、パラメータ数が約1750億という超巨大な言語モデルです。
　言語モデルですので、たとえば文のはじめの部分を適当に入力すると、それに続く文を自動生成します。GPT-3が自動生成する文は、人工的に作られる文にも関わらず、人間が書いた文と区別がつかない、自然で内容のある文です。この技術は様々な文書の自動生成の可能性を示唆しています。
　また GPT-3 の入力は「文のはじめの部分」に限定されません。適当な文字列であっても、それに続く意味のある文字列を生成しようとするのです。
　例えば GPT-3 に

2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41

という文字列を入力してみます。要は素数の文字列です。すると、GPT-3は、このあとに

43, 47, 53, 59, 61, ...

という文字列を生成します。
　このようなことができるのは、 GPT-3 が学習で使ったテキストのどこかに、素数の列を記述したものがあって、それをただ参照している、ということではなさそうです。というのも、ある素数を飛ばしたり、素数ではない数も出てきたりということがまれに発生するからです。つまり、この入出力が意味していることは、素数の列そのものを学習したのではなく、素数の定義が書かれた文章をもとに素数を生成する規則（らしきもの）を学習できたということだと思います。単なる巨大な Transformer による言語モデルに過ぎないのに、なぜそこまでのことができるのでしょうか？これは今でも謎であり、そして、人工知能の本質的な問題と関連しているはずです。

　Transformer は魅力的な研究テーマです。もちろん、私も Transformer の研究に取り組んでいます。Transformer を利用すれば、画像と言語を絡めたタスクなどで様々なことが可能です。操作マニュアルや特許など、図を含む文書からの情報抽出などが面白そうです。
　定年まであと 5 年。何ができるかわかりませんが、最後に面白い研究テーマに出会えたことは幸運です。

※本研究活動の一部は、研究推進経費による「平成30年度Research Booster」「平成29年度研究拠点」の支援を受けて実施されました。