Learn〜先輩事例を学びに〜

知財の基礎情報や、先輩起業家のインタビューを紹介します。

AI編

AI編
学習用データセット(訓練用データセット)を巡る契約

業種や業務、技術カテゴリーなど分野別の知財戦略を専門家にヒアリング。
当該ジャンルの起業・スタートアップに必須の基礎的な知識をお届けします。

テーマ:AI

 スタートアップがAIソフトウェア(学習済みモデル)の開発をする場合、ベンダは、ユーザから提供を受けた元データ(生データ)から学習用データセット(訓練用データセット)を作成し、これを用いて現実に学習を行うことがあります。そして、この学習用データセットの取扱いを巡って、契約交渉が生じる場合もあるため、注意が必要です。

 一般的には、契約書に特段の記載がない限り、ベンダは、自らが生成した学習用データセットをユーザに対して提供する義務はないでしょう。多くの場合には、ベンダが受託するのはAIソフトウェア(学習済みモデル)の開発であって、学習用データセット(訓練用データセット)は、ベンダの内部で管理されるべき、中間生成物としての位置づけを有するものに過ぎないためです。特に、生データに対するアノテーション作業に多くの手間と時間が必要となる場合、ベンダはこれを効率的に実施すべく独自の工夫を行うため、アノテーションデータ自体がベンダのノウハウを構成することも少なくありません。そのため、一般的には、ベンダとしては、学習用データセットをその成果物から明示的に除外するなどの対応をしておくことがよいでしょう。

 しかし、ユーザからすると学習用データセットは自社の生データがなければ生成することはできず、それをベンダが自由に利用できることは適切ではないと考えることもあり得るでしょう。また、より実務的な観点からは、将来的にベンダを乗り換えたいときや、委託したいのはあくまでも開発に過ぎず、運用・保守は自社で実施したい、などの要望がある場合には、生データだけでなく、学習用データセットの開示を受けるインセンティブが生じます。このようなケースでは、学習用データセットを成果物に含めて引渡しの対象としたうえで、その利用条件を個別に議論することになるでしょう。

 なお、学習用データセットの取扱いを議論する際には、その元データ(生データ)の取扱いとの整合性をよく検討する必要があります。たとえば、学習用データセットが元データ(生データ)とアノテーションデータを組み合わせたものである場合には、その一部に元データを含むことになるからです。

 極端な例としては、元データは第三者提供禁止であるが、学習用データセットは第三者提供可能とする定める契約のもとでは、学習用データセットが第三者提供可能なのかは必ずしも明確ではないでしょう。このような場合には、たとえば、アノテーションデータと一体として取り扱う場合には元データとして取り扱わないなどの調整が必要になります。