Ameba Ownd

アプリで簡単、無料ホームページ作成

人工知能が俳句を詠む: AI一茶くんの挑戦

2022.11.19 10:21

https://www.jilis.org/report/2021/jilisreport-vol3no22.pdf 【人工知能が俳句を詠む:

AI一茶くんの挑戦 北海道大学大学院 情報科学研究院 教授 川村 秀憲】より

はじめに

今回は「人工知能(AI)が俳句を詠む:AI一茶くんの挑戦」ということで、ご報告させていただきます。

私は主にAIを研究しております。タイトルに俳句と入っておりますが、実際には俳句は一切詠めないというか、私自身俳句は何も分からない中、AIを使って俳句という切り口から、人の知能に迫るにはどうしたらいいのか。どのような技術が必要なのかを考えてやっています。

出だしでクイズを出したいと思います。ここに俳句が二句あります。「病む人のうしろ姿や秋の風」と「見送りのうしろや寂し秋の風」。どちらか一方は松尾芭蕉が詠んだ俳句でして、もう一方は人工知能で生成した俳句になっています。

答えは最後にお教えするので、これを頭に入れながら今回の話を聞いていただけたらと思います。

俳句とは何か

まず俳句とは何かということですが、皆さん昔、国語で習ったと思います。五七五の十七音からなる有季定型句です。有季とは、季語があるもの。世界最短の定型詩と言われています。季語のほかに、切れ字「や」「な」「けり」といった感動・詠嘆を表すものを1つ含むというのが典型的な形式になります。「荒波や佐渡に横たふ天の河」、これは「天の河」が季語になっていて、「荒波や」の「や」が切れ字です。これは五七五になっているので、こういうものが典型的な俳句になります。

季語については私もこの研究を始めるまで知らなかったのですが、基本的に歳時記に掲載されているので、これが季語ですよというものは既に決まっています。なんとなく季節が対応すればよいというものではなくて、歳時記に載っているものが季語で、現代ではおよそ五千語を超えています。現代だと、例えば「クリスマス」のようにカタカナになっているも

のも季語になります。季語は「クリスマス」だったらその言葉の直接的な意味を当然持ちますが、それだけでなく、その言葉が持つ性質や在り方、様子など、そこに結び付く心情も表します。こういうものを季語の「本情」というそうなんですが、本意だけでなく、この「本情」を交えて季語を用いることが重要とされています。ここで「野分」という季語を例にとってみましょう。言葉の意味としては台風のことです。

台風が過ぎ去った後は草が倒されたり、庭のものが飛んでいったりと荒々しい光景になりますが、それも風情があるよね。夜のうちに台風が去ったときというのは、朝は晴れ晴れとした気分が感じられるよねなど、そういった気分も含めて季語を使うというようなことが言われています。

「AI一茶くん」の誕生

俳句をAIで生成しようということで、「AI一茶くん」と名付けて研究を開始しました。最初の段階では、いきなり感情を使うような俳句を生成するのは難しいだろうということで、小林一茶の俳句をひらがなに直して、ディープラーニングによって学習させることを始めました。初期の頃につくられた「俳句のようなもの」は、次のような感じでした。

「かおじまいつきとにげるねばなななな」「めがすともさこるうりりくなつかあぞ」

このようなものが、最初の研究の中で出てきました。

プロジェクトに日本語学の先生も一緒に入ってもらいましたが、その先生がこれを見ると、かなりぶっ飛んだ作品だということで、これはこれでおもしろいねということでした。こんな感じで、最初は遊びでやっていたというのがプロジェクトの始まりです。

ちょうどこの頃、NHKの「超絶 凄ワザ!」という番組で、AIが生成する俳句と人類がつくる俳句の対決を企画していたらしく、NHKのディレクターの方から電話がかかってきました。人類最強チームを用意するので、ぜひ人類と対決してほしいというオファーがきました。僕らの実力としてはここで紹介した「俳句のようなもの」しか生成できていなかったうえに、

撮影が3カ月後だということで非常に悩んだのですが、何とかなるだろうとオファーを受けました。

AI vs人類 三番勝負

先ほどのような「俳句のようなもの」では全然勝負にならないので、ここからは多くの方々の協力を得ました。実際に使う教師データもたくさん増やして、ひらがなだけだと埒が明かないので、さらに漢字を使えるように拡張していきました。ひらがな交じりの「俳句のようなもの」からおよそ1カ月半から2カ月程で、レベルとしては次のような「俳句のようなもの」が生成できるようになりました。

「ひとり身や山は蛍となりにけり」「はつ雪や貧乏村を一文字」

このようなレベル感になったところで何とか対決ができるかもしれないと、準備を進めて実際の撮影に臨みました。

番組の撮影は2018年1月。NHK「超絶 凄ワザ!」AI vs人類 三番勝負ということになります。1つ目の対決は人類とAIのファッションコーディネート対決。

2つ目はタクシードライバーがお客さんのいそうなところを見つけるという、タクシー売上げ対決。そして3つ目が俳句対決ということになります。ルールは写真を見て俳句をつくる。つくられた俳句を事前に提出し、作者を伏せて審査してもらうといった構成になりました。

お題の画像は紅葉が映っている池の写真、夜空に花火が映っている写真、田んぼの蛙を映した写真ということで、これらを見て俳句を生成して対決します。

実際にどんな俳句を僕らが持っていって対決したか紹介します。最初の写真では、「旅人の国も知らざる紅葉哉」という俳句を一茶くんで生成して持っていきました。

これに対して人類チームの大塚凱さんという若手俳人は、彼には今回の対決をきっかけにこの後も我々のプロジェクトに協力していただくのですが、「ひざらしや紅葉かつ散り水に傷」という俳句を持ってきました。

パッと見て分かると思いますが、AIの俳句はもともと小林一茶や正岡子規の俳句を学習させたので、古い感じがします。一方、大塚さんの俳句というのは、やっぱり現代の俳人なので、かなりスタイリッシュに俳句をつくっている。私は俳句をやらないので、俳句に対してあまり気の利いたコメントは言えないのですが、これはそんな印象を受けました。結局、0

対3で惨敗ということになりました。

同じように、2つ目の写真からの俳句です。一茶くんチームは「花火師や夜の刻刻の勢を見て」という俳句を持っていきました。これに対して人類チームは「深海へ降るらし冬の花火とは」。これもまたスタイリッシュで現代風な俳句をつくられて、今回も0対3で惨敗しました。

3つ目の俳句は蛙の写真に対して、一茶くんは「又一つ風を尋ねてなく蛙」という俳句を生成しました。これに対してスタジオゲストがつくった俳句は「酒呑みの相槌溶けて昼蛙」で、ここで何とか一票点数が入りました。結局負けたのですが、全体を通してちょっとだけ好評していただいたりしつつ…といった勝負でした。

敗因分析

一茶くんの学習データが、小林一茶を中心とした古典俳句ばかりだったので作風が古い。人類か一茶くんかは伏せて俳句を見せたということでしたが、審査員の先生は長年俳句をやられているので、ひと目でAIの俳句と見破られてしまいました。現代の感性からすると積極的な評価がつきませんでした。連想を飛ばせていない。文脈に乏しく、言葉の選び方が稚拙といったコメントをいただいて、一茶くんとしては厳しい戦いになりましたが、これをきっかけに俳句界の先生方や俳人の方と交流が始まり、いろんな研究が深まっていったということになります。

AIの研究者だけで俳句を研究するといっても、なかなか文学的な意味での俳句の在り方や、そこで何を考えるのかというところが分かりません。ですが、俳句という共通テーマで、AIの研究者とはまったく異なる俳人の方々と議論するといった切り口ができるようになったことで、AIの研究としても非常に深みが出てくるような状況になってきています。

俳句しりとり対決

次に「俳句しりとり対決」をやりました。これは人とAIが交互に俳句を詠んでいって、最後の2文字をいただいて次の俳句をつくるという対決です。

AIがつくった俳句をAI自身が選ぶといったことが今はできないので、AIチームはAIが生成したものから良さそうなものを人が選ぶという、共同作業での対決になっています。このときに詠まれた句を紹介します。

最初は人が詠んだ「金葎屍の後へ置く小花」。ここから花の2文字をいただいて、「花蜜柑剥く子の道の地平まで」というのが一茶くんの作品になります。「まで」をいただいて、「馬蛤貝の波につまづき潮に巻く」というのが人の作品。次は「巻く」をいただいて、「撒

くといふ言葉正して花見ゆる」。「ゆる」を取って「許しがたい臭いを放屁虫」。これが、人がつくったもの。

このように続いていって、最後は「ホルン吹く放課後の大夕焼かな」。「かな」をいただいて、一茶くんの作品は「かなしみの片手ひらいて渡り鳥」。

この対決では、AIか人のどちらがつくったかは分かったうえで投票していただきます。合計点でいうと、またしても人には勝てなかったんですけれども、最高点を獲得したのは、「かなしみの片手ひらいて渡り鳥」という俳句になりました。これは一茶くんで生成した俳句になります。このときの点数平均が8.5点になるんですけれども、8点というのは「芸術的にも

技術的にも、積極的評価ができる」。9点は「8点の評価に加えて、強い芸術的魅力がある」ということで、4人の審査員の先生方で8.5点を取れたということは、かなり芸術的な意義がある俳句が生成できたということになります。

そのほかには、AIで生成した俳句がたくさんあるので、その中から初めの対決でご一緒した大塚さんに協力してもらって俳句を選んでもらい、俳句集をつくって、アメリカのサウス・バイ・サウスウエストで披露することもしました。

「水仙やしばらくわれの切れさうな」「強霜に日のさす如し磯の人」

「逢引のこえのくらがりさくらんぼ」「雲ふかくゆきて帰らず毛虫焼く」

このような俳句が、AIで生成できるレベル感になります。ちょっと時間がないので細かくは省きますけれども、大塚さんによると、AIがつくった俳句にいろいろとコメントしてもらえるのは、それがきちんと意味が通っているから。さらに芸術的な意味がきちんとあるからいろんな批評が可能になり、高評価していただいているようです。

ほかにも対決をいろいろやっていまして、兼題といって題を決めて詠んだ俳句の五番勝負もあります。これは人かAIどちらの句かを伏せて投票してもらって、どっちが勝つかというようなことをやったりしています。このときは、2対3でAIがかろうじて敗れたというか、人類がかろうじて勝ったというような状況になっています。レベルとしては、人と遜色ないような俳句が詠めるようになってきたかなと思っています。

AI俳句の現在

ここからは、AIの研究的な観点から俳句の話をみていきたいと思います。原理としては、過去の俳句を単語や言葉に分解して、LSTMやBERTと呼ばれる仕組みによってAIに学習させます。たくさん過去の作品を学習すると、俳句が生成できるようになるわけです。それで言葉の組み合わせから、じゃんじゃかじゃんじゃか俳句をつくっていくということになります。もちろん、コンピューターの性能によって変わるんですが、例えば我々が今やっているところでいくと、1時間にだいたい十万句以上、二十万句弱の俳句を生成することができます。コンピューターをずっと動かしていると俳句はたくさんできるので、AIで生成した俳句としてストックしているものは、現時点で一億句以上あります。それを検索できる仕組み

(https://ai-issa.jp/)を公開しているので、キーワードを指定すると、皆さんでもいつでも作品を検索できます。

今は対決するときに、人が句を選んでいるのが現状だという話をしましたけれども、どんなレベルの中から人が選んでいるのかなということで、ここに例を書きました。このような俳句候補から、人が良いと思うものを選んで対決の時に持っていくことになります。一つひとつが良いかどうかというのは、選ぶ人の観点や詠む人の観点によって変わると思いますが、

こんな感じのものが一億句ほどあれば、玉石混交の中ですごく光るものがあるという現状になっています。どれくらい光るものがあるかというのは分からないですけれども、ざっと俳人の方に見ていただいた感覚でいくと、百句に一句くらいはそれなりのものがあって、千句も見ればなかなかのものがあるんじゃないかなという状況です。

たくさん俳句をつくるときには、おかしなものが出てきたり、学習データと同じものが出てきたりするので、俳句をディープラーニングでつくった後にはフィルターでチェックしています。十七音になっているか、季語・切れ字がきちんとあるか。あとは、何とか良いものを少しでもAIで選びたいということで、日本語の正しさみたいなものをディープラーニング

で判定したり、人がつくった作品に近いかどうかをチェックしたりしています。ですが、やっぱり言葉の意味は今の状況ではなかなか分からないので、最後は人の選に頼っているということになります。

高浜虚子が「選といふことは一つの創作であると思ふ。少くとも俳句の選といふことは一つの創作であると思ふ。」という言葉を残しています。俳句はもちろんつくる人、詠む人がいるんですけれども、詠む人じゃなくて、名の知れた俳人が他の人の作品をいろいろ集めてきて俳句集として出すことがあります。

そうなると、選ぶという行為が入ってくるわけですね。それはひとつの創作であるということを言っています。例えば我々のAIがつくる俳句を著作権・著作物的観点でみると、著作物は人の思想や感情が入っているものというのが定義だと思うので、AIがつくったものが著作物として認められるかどうかについては議論があると思います。ですが、選ぶという行為が入ってくることで、この高浜虚子の言葉を借りると、そこに創作行為が入ってくるんじゃないかと理解することができるかなと思います。

なぜ、AIで俳句なのか

我々がなんで俳句をやっているかについても、ちょっと触れておきたいと思います。AIの知能レベルを測るバロメーターのひとつに、ゲーム、例えば囲碁が使われることがありましたけれども、囲碁は解空間が有限で明確なルールが決まっています。ルールが決まっていて最後勝ち負けにたどり着くゲームなので、理論的には正解の手、神の手を選んでいくと絶対勝てるというものが存在します。ただし、原理的には存在するが簡単にはそれを見つけるということはできないので、どれだけ正解の手に近い手を有限のリソースの中で見つけることができるのかが強さに繋がっています。そうすると、人の能力とAIの能力がゲームのルール上というか、どう正解の手に近づくのかという性質上、どうしても勝った負けたという判定になることが多いです。そういうものが囲碁だと思います。

それに対して俳句というのは、組み合わせは囲碁に劣ると思うのですが、言葉の解釈は人の側にあります。そして、絶対評価というものはできなくて、その作品の何が良いかは人のみぞ知るということになります。AIが俳句を生成して、その評価をAIがやって、さらにフィードバックもAIによって行われるようなことはまったく意味がないのです。あくまで、どこまで人の心を理解できるのか、人とAIが相互作用しながら共有知識を持つことができるのかというこ

とが俳句のテーマになります。そうすると、俳句は人がいないところで勝負したり、お互いを評価したりというようなことはできないので、俳句の世界というのはAIと人が必ず両方システムとして存在しないと成り立たない世界観になっています。そこに、我々が俳句をAIの研究対象として取り扱う意味があるのかなと思っています。

また、AIが俳句を最終的に詠むということを考えると、これまでのAIではなかなか取り扱いが難しかった問題にも直面します。ひとつは、例えば記号設置問題です。これは、現実世界の物事と記号をどう結び付けるのか。逆に記号から現実の世界の何を理解するのかという問題です。それから、クオリアの問題なんかもここに関係すると思いますけれども、そういうものをどう扱っていくのかは必ず出てきます。

それから、俳句を生成するということを考えたときに、今の我々の仕組みみたいに、無からサイコロを振って俳句をつくる。賢いサイコロをAIでつくりましょうというつくり方であればあまり関係ないんですけれども、テーマに沿った俳句をつくろう。誰かに何かを伝えようと思って俳句を生成しようみたいなことを考えると、どうやって無限の可能性から有限の可能性に絞って、良いものを選ぶのかというフレーム問題が出てくる可能性もあります。

「互いにそれを知っていること」を知っていることが重要

俳句の相互理解ということを情報の研究的に考えてみると、データ圧縮に近いようなことなのかなと理解しています。データ圧縮というのは、伝えたいものを何らかの形で量を減らした別のデータに変換することと言えると思います。これを俳句で考えると、作者の頭の中のもやもやとした感情や情報を、五七五の言葉に変換して、読み手がその言葉から頭のもやもやに戻すと、こんな感情なんだと再現できる。そういうことなんじゃないかなと理解しています。これが成り立つためには、作者も読み手も言葉の意味を互いに知っているだけでなくて、「互いにそれを知っていること」を知っていることが必要になります。こういうことを共有知識といいますけれども、共有知識が重要になっているんじゃないかと思います。そこで、最初に説明した季語についてです。俳句ではなんで季語を重要視するかということが、最初は分かりませんでした。でも、同じ歳時記をそれぞれが読み込んで、ある言葉に対してその解釈・本意・本情を互いに共有しているということ、それを相手も読み込んでいるということが分かっていることが成り立つと、深い共有知識が成り立つということになります。そうすると、たくさんの情報を効率よく相手に伝えることができます。なんとなく季節が季語で表されているよねという程度で、歳時記を読み込んでいない人に俳句を伝えたとしても、きっと歳時記を読み込んでいる人のようには、それを頭の中に再現することはできないんじゃないかなと思います。そういう意味で、季語が大事なんじゃないかなと思います。

AI一茶くんの作風―取り合わせの妙

それから、AIがつくる俳句はどんな作風なのかとよく聞かれます。取り合わせの句と一物仕立ての句というものが俳句にあるそうで、一茶くんは取り合わせの句が得意ですねと言われることがあります。取り合わせの句というのは、1つの句の中で2つの物事を取り合わせることで相乗効果を発揮させるような俳句で、例えば「花の雲鐘は上野か浅草か」。「花の雲」

と「鐘は上野か浅草か」は、意味としては別のものなんだけれども、それを並列に取り上げることによって、一茶くんはコントラストを際立たせるという俳句が得意ですね、と言われます。一方で、一物仕立てという俳句は全体が調和したような句です。季語でテーマが統一されたような俳句になり、例えば「びいと啼く尻声悲し夜の鹿」。これは、2つのものを取

り合わせているのではなくて、全体が統一されているような俳句です。全体の文脈が分かっていて、そこに統一的な解釈を考えながら俳句をつくらないとできない。残念ながら、今のディープラーニングを使った一茶くんのレベル感では文脈を理解することができないので、こういった俳句はなかなか難しいというのが現状になります。

人工知能は意識を持つのか

AIの有名な議論で、AIは意識を持つのかという、サールの中国語の部屋というものがあります。ある部屋に中国語が分からない人が閉じ込められていて、部屋にたくさんの指示書、「〇〇(中国語)」が きたら「×× (中国語)」を返せというようなメモが貼ってある部屋を想像してください。ここに中国語の質問表を投げ入れると、メモに従って返答が返ってくる。けれど、中の人はまったく中国語が分からない。

そうすると、これって中国語を理解していないですよね。AIが言葉を理解するといっても、こんなようなものですよねというのがサールの問いかけです。だからAIというものは、意識を持ったものとしてつくることはできないんだよということをサールは言っています。我々の今の俳句を生成するAIというのはこういうレベル感なので、このサールの中国語の部屋に対してどういう反論をしていくかは、これからの議論で重要になってきます。

紙面が限られていますので、これは簡単に。同じような議論が、我々がAIで俳句を生成して発表しますということをしていると、俳人からも上がってきます。彼らが思うのは、AIが俳句を生成して発表すること自体はまったく意味がないんだけれども、それを考えたとき、人がなぜ俳句を詠むのか。それにどういう意義があるのかというようなことが、疑問として投げかけられる。そういう意味で、人の側に対してもいろんな問いかけをしているということになっています。

実際に体を持っていない、ディープラーニングのコンピュータープログラムでしかないAIに、本当に俳句が理解できるのか。俳句が詠めるのかというところはどうなのか。これって感情が何なのかということに関わってくるわけです。よく、生きていないものには感情は理解できない。だから知能は実現できないのではないかという身体性の話が出てきますけれども、AIと人の境目が段々曖昧になってきています。

教師データは人がつくっているとか、ここでいうと、選ぶということは人がやっているとか。人かAIかというようなゼロイチの議論はかなり難しくなってきていて、半分人で半分AIがつくるものは何なのか。ここのテーマでいうと、著作物としてどう考えるのかという、そういった議論が出てくるのではないかと思います。

まとめ

研究としてやらなければいけないことはたくさんあって、先ほども述べたように、AIだけで成り立つとか、人のデータさえあればいいというわけではなくて、研究を通して人との相互作用というのが必ず必要になってきます。AIがつくった作品を人に評価してもらい、その評価を集めて評価自体をAIができるようにしたいということもあります。それから、人はどういう作品を良いと思うのかというところからデータを集めたい。そういうことを通して、我々はAI俳句協会というものをつくりました。このあと講演される松原先生に初代会長をお願いしています。こういったことを通して、人とAIが交流・相互作用しながら研究を進めるということについて取り組んでいます。

ここで冒頭のクイズに戻ります。「病む人のうしろ姿や秋の風」「見送りのうしろや寂し秋の風」のうち、「病む人のうしろ姿や秋の風」が一茶くんで生成した俳句になります。実は、このクイズというのは俳人の若林哲也さんという方につくってもらいました。なん

でこの2つの作品をクイズにしたかというと、若林さん曰く、「見送りのうしろや」というのは、当然寂しいものです。そう考えたときに、俳句をやられる方は、「見送りのうしろや」と言った時点で、寂しいというイメージを持っている。しかも秋の風ということなんで、言っていることが全部同じような意味を持っているから、これらの言葉を使うとどうしても冗長になってしまいます。そう考えると、「病む人のうしろ姿や」のほうがある意味言葉を選んで使っているような感じがするので、俳句をやられている方だと「見送りのうしろや」のほうがAIじゃないかというような推測をするということで、このようなクイズにしたそうです。

最後に宣伝なのですが、我々のこのような取り組みを、ちょうど 7月7日に本にすることができました。『人工知能が俳句を詠む AI一茶くんの挑戦』(オーム社)という本です。今日ご紹介できなかったいろんな話、AIの技術全般や課題とか、このあと松原先生がお話しする話も一部取り上げさせていただいています。AIがこういう作品をつくる、それからAIの技術として何が難しいかということについてまとめたので、よかったらぜひお手にとって読んでみてく

ださい。

本稿は2021年7月11日(日) ~ 22日(木)に開催された第5回情報法制シンポジウムでの講演を基に作成したものです。

北海道大学大学院情報科学研究院教授

博士(工学)

川村 秀憲(かわむら ひでのり)

AI、ニューラルネットワーク、ディープラーニング、機械学習、進化システム、マルチエージェントシステム、データマイニング、ロボティクスの研究に従事。現在、研究室学生とともにAI技術の社会応用、社会実装に関する実践研究を行う。