ソフトバンク株式会社は、世界最大のAIコンペティション「Kaggle(カグル)」において、同社のデータサイエンティスト荻野聖也(おぎの・まさや)氏が金メダルを獲得、「Kaggle Master」の称号を手にしたことを発表した。今回の「Kaggle」コンペティションでは2,654チームが参加。個人として参加するため、参加者の企業名は明確ではないが、世界の名だたるAIベンターや開発者、データサイエンティストがしのぎを削る舞台となっている。
では、「Kaggle」とは具体的にはどういうものか、金メダル獲得の要因となったのはどのような点か、生成AIがどう変わっていくのか、荻野氏に聞いた。
国際的なAI大会「Kaggle」のコンペティションとは
Kaggleは、AIによるデータ分析の世界的なコンペティションプラットフォーム。不定期に開催され、年に10回程度開催される年もある。コンペティションの成績によっては「Kaggle Master」や「Kaggle Expert」などの称号が与えられる。
2023年1月時点でKaggleに参加する約18万人のうち、「Kaggle Master」の称号が付与されるのは上位わずか約1%程度。荻野氏は11位で金メダルを獲得し、「Kaggle Master」の称号を得た。
「金メダル」獲得に繋がった勝因を聞く
編集部
荻野さん、まずは偉業達成おめでとうございます。普段、ソフトバンクではどのような業務を行われているのでしょうか。具体的に教えて頂けますか
荻野氏
普段はAIを活用したソリューションの開発や研究などを行っています。ドローンの空撮映像やOCRのテキスト内 の名前などの固有表現の抽出なども行います。
編集部
「Kaggle」のコンペティションへの参加は何回目で、今までの成績を教えて頂けますか
荻野氏
今まで20回参加しました。銅メダルを3回、銀メダルを5回獲得しましたが、金メダルは今回が初めてです。
編集部
「Kaggle」のコンペティションの魅力はどんなところでしょうか。また、設問内容はどのようなものか、具体的に教えて頂けますか
荻野氏
このコンペティションで出題される内容はいろいろあります。AIによる推論は、ある程度の精度に達するまでは比較的簡単ですが、突き詰めるとどのモデルを使うと最も効率的かとか、複数のモデルを組み合わせて使うなど多くの工夫が必要となり、コンペティションではその高度な領域が求められる点が面白いです。
設問内容は例えば、英語学習者が書いた文章を「まとまり」「構文」「語彙」「表現」「文法」「慣例」の六つの指標でAIによるスコアの予測性能を競うものがあります。
他には、顧客の購買履歴の情報が提供され、そこから学習データをどう作るか、AIに学習させた後「次にその顧客は何を買うか?」「その顧客は指定されたこの製品を買うか?」などを予測する設問もあります。また、画像解析系ではあるイルカの写真のデータが提供され、複数の写真の中から、同じイルカが写っている写真を選択して精度を競うものもあります。飛行機雲のセグメンテーションを行う、といった内容もありました。
編集部
どのくらいの時間でAIモデルの作成や推論を行うのですか?
荻野氏
土日で行う競技とかではなく、機械学習やAIモデルの作成、解析などを2~3ヶ月かけて行います。
編集部
計算資源はどのような環境のものを使うのでしょうか? また、計算資源の環境によって差は出ないのでしょうか?
荻野氏
参加者によってまちまちだと思います。所属している企業のサーバを使用する人もいれば、私の場合は「Google Colaboratory」という無料でGPU環境が使えるサービスを利用しました。モデルの開発期間はある程度長く取られているので、環境によって大きな差は出ないかもしれませんが、モデルの精度を高めるために様々な試行錯誤を行いますので、性能の高い計算機の環境を使える人の方が有利だとは思いますが、計算資源が乏しいからといって即敗因に繋がるとも思いません。
編集部
20回めの参加にしてついに金メダルを獲得したわけですが、勝因というか、好成績に繋がった要因を教えて頂けますか
荻野氏
このコンペティションは与えられる学習データが少ないのが特徴のひとつです。少ないデータでどのように学習して高精度のAIモデルを生成するかという点が重要でした。そこで3つの手法をとりました。
ひとつはMulti Step Pseudo Labeling(外部データを活用して複数回にわたって「疑似ラベル」を作成する手法)です。今回のコンペティションで提供された以外のデータで類似したサンプルが多く含まれるデータから学習したAIがラベルを自動で情報に付与したデータを学習に使用します。そして「疑似ラベル」を作成した時にターゲットとする情報が学習データに漏れてしまうことが発生するため、手元で作成した評価と最終評価のスコアに隔たりが生じます。これに配慮しながら適切な評価指標を作ることができた点がよかったと思います。
他には複数のモデルを用いて、それぞれの推論から多数決や平均をとることで最終的に精度の高い推論を算出する「アンサンブル」を用いました。
BERT系では、NLPに入力するテキストの長さを調整しながら、複数の入力と出力を試したりもしました。
生成AIの登場でどう変わる?
編集部
最近は、ChatGPTをはじめとしたGPTや生成AIが注目されていますが、今後のコンペティションでは出てきそうですね
荻野氏
そうですね。GPT系は今後のコンペティションでは大きな武器になると思います。
実は私自身もコーディングの際にもChatGPTを使っていて、簡単なものはChatGPTにコードを書かせたり、エラーが出たときにChatGPTにエラーの原因を聞いたりしています。
今までのコンペティションではAIモデルの生成と推論が主だったが、生成AIの登場により、今後は画像やテキストをAIが生成したり、AIが生成した画像のプロンプトを高精度に予想したりといった内容の設問も現れるかもしれない。
荻野氏の次の目標は
編集部
荻野さんのようなデータサイエンティストも、既にChatGPTにプログラミングに活用する段階に来ているんですね。Kaggleの話に戻りますが、今後はどのような目標を持っていますか。
荻野氏
新たな目標として金メダルを5つ獲得すると『Kaggle Grandmaster』の称号が与えられるので、次はそれを目指したいと思っています。
編集部
荻野さん、今回はインタビューに対応して頂きありがとうございました。
高度なAIシステムの実現を目指す
ソフトバンクは、テキスト分析やチャットボットなどの自然言語処理技術を応用したAIシステムの開発を推進している。このコンペティションで得られた知見や経験を基に、より高度なAIシステムの実現を目指していく、とコメントしている。
ソフトバンクは、「SDGs」の達成を経営の重要事項と位置づけ、六つのテーマを重要課題として定めていね。その一つとして「5G」や「AI」などの最新のテクノロジーを活用した「DX(デジタルトランスフォーメーション)による社会・産業の構築」を掲げている。AIを応用した新しいソリューションの開発やビジネスの変革を強力に推進するとともに、優れたAIの技術者の育成を引き続き推進していく考えだ。
ABOUT THE AUTHOR /
神崎 洋治神崎洋治(こうざきようじ) TRISEC International,Inc.代表 「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ~くわかる本」(秀和システム)の著者。 デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。