Connect With Us

clotilde07@hermann.com

Call For Inquiry

45-9601175

Opening hours

Mon - Sun : 09:00 - 16:00

記事 GitHubのAI Copilotを使ったら、訴えられるかも あなたにおすすめの記事 あなたにおすすめの記事

GitHubのAI Copilotを使ったら、訴えられるかも あなたにおすすめの記事 あなたにおすすめの記事

GitHubのAI Copilotを使ったら、訴えられるかも あなたにおすすめの記事 あなたにおすすめの記事
491
630
700
369
スウェーデン在住のエンジニアであるJacob Bergdahl氏(同氏の詳細は公式サイトを参照)はMediumにテック系ビジネスを批評する記事を投稿しており、AINOWでも同氏執筆の記事『AI業界のフロントランナーになったピザチェーン「ドミノ・ピザ」』を紹介しました。同氏が最近Mediumに投稿した記事『GitHubのAI Copilotを使ったら、訴えられるかも』では、GitHubが発表したコード生成AI「GitHub Copilot」の問題点が解説されています。ソフトウェア開発プラットフォームを開発・提供するGitHubは6月末に、コードを生成するAI「GitHub Copilot」を発表しました。Visual Studio Codeの拡張機能である同AIを使えば、英語でプログラミングしたい内容をコメントとして記述すると、そのコメントを反映したコードが生成されます。同AIの学習には、GitHubで公開されているコードが大量に使われました。それゆえ、まれに学習データとしたコードをコピーして出力してしまいます(コピー出力事例は記事本文参照)。こうした出力は、コードの著作権を侵害するリスクをはらんでいます。さらに言えば、コードをコピーしたのか、学習データにもとづいて新規に生成したのかを判別するのが難しい、という問題もあります。以上のような懸念事項があることにより、GitHubの利用を止めたユーザや、GitHub Copilotの使用を禁じようとする企業のセキュリティ担当者がいます。もっとも、GitHub Copilotは少数のテスターを対象としたテクニカルプレビューの段階にあり、製品版がリリースされるまでには上記の懸念事項が払拭されるかも知れません。

ちなみに、Bergdahl氏は世界各地の100のAI導入事例を集めた著作『This Is Real AI: 100 Real-World Implementations of Artificial Intelligence』を執筆しており、日本のAmazonからも購入できます(ただし英語版のみ)。

なお、以下の記事本文はJacob Bergdahl氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。

GitHubは、同社の新製品Copilotを “AIペアプログラマー “と表現する。しかし、ペアプログラミングは通常、ライセンスコードを盗むことはないのではなかろうか。画像出典:Christina Morillo

そのためにGitHubを放棄した人もいる

GitHubは、最近輝かしい製品を発表した。それは、Copilot(本来は「副操縦士」という意味の英単語)と呼ばれる人工知能(AI)だ。このAIは機械学習を利用したソフトウェアで、自分でコードを書くことができ、非常に素晴らしいプログラミング生成機能を備えている。しかし、GitHubから撤退する人や、訴訟を心配する人がいるのも事実だ。

このAIは、他のOpenAIを利用したコード生成ツールと同様に動作する(※訳註1)。ユーザがAIに書いてほしい内容についてのコメントを書くと、AIがその内容に関するソースコードを実現する。そんなCopilotのユニークなところは、自動補完候補を絶え間なく提案するなど、ユーザに対してイニシアティブをとることだ。

(※訳註1)OpenAIが開発した言語AIを活用したコード生成AIには、GitHub CopilotのほかにMicrosoftが開発したアプリ開発プラットフォームMicrosoft Power Appsに実装されたソース生成機能がある。両者を比較した表が以下。

Microsoft Power Apps搭載ソース生成機能とGitHub Copilotの比較

Microsoft Power Appsコード生成機能

GitHub Copilot

ベース言語AIGPT-3OpenAI Codex(GPT-3をソース生成用にファインチューニング)
対応プログラミング言語Microsoft Power FxPython、JavaScript、TypeScript、Ruby、Goに高度に対応。そのほかに数十のプログラミング言語に対応
使用方法Microsoft Power Appsの機能として使用Visual Studio Codeの拡張機能として使用

ちなみに、GitHubは2018年よりMicrosoft傘下となっているので、上記2つのアプリは実質的にMicrosoftの管理下にある。

Copilotはとても素晴らしいと思わないだろうか。私のことをご存知の読者は、私がしばしば人工知能に興奮していることもご存知だろう。Copilotのような技術を解説した本まで出版しているほどだ。しかし、機械学習をめぐっては多くの問題があり、GitHubはCopilotを発表した初日からそうしたジレンマを経験することになった。通常、機械学習アプリケーションをめぐるドラマの発端はデータにあり、Copilotをめぐる騒動もその法則に従っている(※訳註2)。具体的にはCopilot の場合、アルゴリズムを構築するためにGitHub がどのようにデータを収集したかが問題なのだ。

(※訳註2)一般に機械学習アプリは、学習データに潜在している偏見や差別を助長する可能性がある。この問題については、AINOW記事『「AIによる差別」の現状とは?事例、原因、世界各地の取り組みを紹介』を参照。もっとも、GitHub Copilotがはらむ問題は後述のように著作権に関するものである。

残念ながら、ユーザはアルゴリズムが特定のコードをCopilot自身で作ったのか、ライセンスで保護されたコードリポジトリから盗んだのかを知る術がない。

他の機械学習アルゴリズムと同様に、Copilotはうまく動作しているもの(コード)に関するデータを与えられることで、そのやり方(コードの書き方)を学習する。GitHubによると、このAIはGitHubリポジトリから抽出した何十億行ものコードを使って訓練された。そのため、Copilotがユーザのためにコードを書くときには、その何十億行ものデータを利用していることになる。

残念ながら、ユーザはアルゴリズムが特定のコードをCopilot自身で作ったのか、ライセンスで保護されたコードリポジトリから盗んだのかを知る術がない。

私が盗んだと言うのは、まさに文字通りの意味で言っているのだ。

あるソフトウェアエンジニアは、Copilotに(コメントで)「私について(about me)」ページを書くように頼んだところ生成されたコードの画像をTwitterに投稿した。滑稽なことに、このコードは実在の人物のページからそのまま引用されている(※訳註3)。

(※訳註3)以上で解説されているツイートは、以下のものと推測される。

個人データが生成されてしまう可能性に関して、GitHub CopilotのFAQでは以下のように回答している。

以上のように実在の個人データを生成してしまう可能性は皆無ではない。大規模な訓練データから個人データを抽出する行為は「訓練データ抽出攻撃」と言われることもあり、GoogleのAI研究部門はこの種の攻撃を論じた記事『大規模言語モデルにおけるプライバシーの懸念事項』を公開している。

ほかにもCopilotのひどく滑稽なソースコードのサンプルがある。あるユーザがアップロードしたGIFには、ビデオゲーム『Quake III Arena』(※訳註4)のリポジトリからそのまま引用した関数をAIが書いている様子が収められている。オリジナルのコメントも含まれているほどだ(※訳註5)。

GitHubのAI Copilotを使ったら、訴えられるかも あなたにおすすめの記事 あなたにおすすめの記事

(※訳註4)『Quake ⅢArena』とは、FPS『DOOM』を開発したid Softwareが1999年にリリースしたFPS。マルチプレイに特化したゲームとして開発された。(※訳註5)以上で解説されているツイートは、以下のものと推測される。

以上がCopilotの根本的な問題点である。どのコードがCopilot自身で考えたもので、どのコードが別のソースからそのままコピーしたものなのか区別できないのだ(※訳註6)。

(※訳註6)GitHub CopilotのFAQには「GitHub Copilotは訓練セットからコードを復唱してしまうことはあるのか」という質問に対して、以下のように回答している。

回答で言及されているオリジントラッカーが実装されれば、コピーされたコードが特定できるようになるだろう。

また、Twitterで注目を集めたほかのユーザは、このソフトウェアがオープンソースのコードを商用製品にロンダリングするための手段であると指摘した(※訳註7)。

(※訳註7)以上のツイートを翻訳すると、以下のようになる。

なお、ツイートに引用されている文章は、訳注6で翻訳したGitHub Copilotのコードコピーに関する回答。

GitHubの利用規約によると、GitHubのプラットフォームを利用するユーザは「(中略)(GitHub運営元である)私たちと私たちの法的後継者に対し、サービスを提供するために必要な範囲で、ユーザのコンテンツを保存、アーカイブ、解析、表示する権利、および付随的なコピーを作成する権利をユーザは承諾する」とある。しかし、Copilotの学習データとしてソースコードが使われることは、ユーザがサービスを申し込んだときに考えていたことでは全くないかも知れない。

個人的には、機械学習を利用したアシスタントを使ってコードを早く書けるようになる未来を信じている。しかし、GitHub Copilotはそんな未来ではない

CopilotのFAQにおいて、「GitHub Copilotの助けを借りて作成したコードは、ユーザに帰属する」とGitHubは主張している(※訳註8)。しかし、人気のプログラマーサイト「Hacker News」では、Copilotが著作権を侵害していると主張する人たちがいる。このAIは、最初の所有者が商用利用を許可しているコードのみを使用できるはずだが、ライセンスに関係なくあらゆるコードを使用していることは明らかだ。

(※訳註8)GitHub CopilotのFAQにおいて、同AIが生成したコードの著作権に関して以下のような回答が記載されている。

また、「コードの記述を支援したGitHub Copilotに関するクレジットを表記する必要はあるのか」という問いに対して、以下のように回答している。

以上の回答から、GitHub Copilotはツールに過ぎないので著作権を有する資格はない、というのがGitHubの公式見解なのがわかる。

Hacker Newsの別のスレッドでは、このツールを使用すると、知らず知らずのうちに著作権のあるコードを使用してしまい、訴えられるかも知れないという懸念が表明されている。あるユーザはCopilotを「法的時限爆弾」と呼び、別のユーザは個人的な逸話を付け加えている。「私は大企業の製品セキュリティを担当しているが、すでにCopilotを禁止する方向に舵を切っている […]」

このような状況から、GitHubを放棄する人もいる。

個人的には、機械学習を利用したアシスタントを使ってコードを速く書けるようになる未来を信じている。しかし、GitHub Copilotはそんな未来ではない。このAIの場合、データの収集と利用に関して、あまりにも多くの懸念事項がある。

今後、同じようなサービスが続々と登場すると予想しているが、倫理的かつ賢明に作られたものでなければ、本当の意味で成功しないだろう。

・・・

コードを生成するAIを作っているのはGitHubだけではない。これらの新しいアルゴリズムは、開発者にどのような影響を与えるのだろうか。AIはプログラマーに取って代わるのだろうか。以下の記事をチェックして頂きたい。

MediumWill AI Replace Programmers?OpenAI’s algorithms have opened the floodgates to code-generating AI, but how will it impact software developers?

原文『GitHub’s AI Copilot Might Get You Sued If You Use It』

MediumGitHub’s AI Copilot Might Get You Sued If You Use ItSome are even abandoning GitHub because of it

著者Jacob Bergdahl

翻訳吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)

編集おざけん

タグ: aiはあなたの会社の人工知能を助けますか