正策新闻
正策关注|Deepseek遭多方“绞杀”,被污名化的“蒸馏”背后的法律风险
近日,意大利隐私监管机构Garante(GARANTE PER LA PROTEZIONE DEI DATI PERSONALI)表示,正要求DeepSeek提供关于个人数据使用问题的解释。而仅隔一天之后,DeepSeek应用在意大利的谷歌应用商店(Google Play)和苹果应用商店(App Store)已无法下载。同日,爱尔兰数据保护委员会(DPC)当天发布声明称,已要求DeepSeek提供有关爱尔兰用户数据处理的信息,目前,DeepSeek并未将爱尔兰指定为其位于欧盟的总部。此后荷兰资料保障监管机构也称将对DeepSeek的数据收集行为展开调查。
OpenAI于1月29日发文称,它发现有证据表明中国人工智能初创公司DeepSeek使用其专有模型来训练自己的开源模型,并暗示这可能违反了OpenAI的服务条款。但OpenAI没有进一步列举证据。
意大利隐私监管机构GARANTE曾对OPENAI下达巨额处罚
2023年,意大利作为第一个遏制ChatGPT的西欧国家,Garante曾因怀疑ChatGPT违反欧盟隐私规则,短暂禁止ChatGPT在意大利使用,并开启调查。此后在去年12月,Garante结束对OpenAI使用个人数据行为调查,最终决定对OpenAI处以1500万欧元(约1.13亿元人民币)的罚款。
值得注意的是,在禁止ChatGPT在意大利使用之后,OpenAI经过与监管当局的沟通及实施相关措施,Garante于2023年四月末又恢复了ChatGPT的使用,并表达认可该公司为将技术进步与尊重人民权利相结合所采取的措施,并希望该公司继续沿着遵守欧洲数据保护法规的道路前进。也因此,对此1500万欧元的巨额处罚,OpenAI明确表达将进行上诉。
什么是“蒸馏”?
在遭遇多方“绞杀”的同时,一场关于DeepSeek蒸馏行为在法律、道德、技术层面的讨论也瞬间展开。
知识蒸馏系统通常由三部分组成,分别是知识(Knowledge)、蒸馏算法(Distillation algorithm)、师生架构(Teacher-student architecture)。在人工智能领域,知识蒸馏(Knowledge Distillation)本就是一种极为常见的技术,但是为了绞杀DeepSeek,真的慌了,疯狂贴上“偷窃”的标签。实际上,模型蒸馏是一种高效的教学方法,通过将大型模型的知识和能力传递给小型模型,从而实现资源优化和性能提升。
模型蒸馏的本质在于“教学”。以一个生动的比喻来说明:假设老董是奥运冠军的教练,他将自己多年积累的竞赛经验和解题思路整理成册,传授给学生小张。这本小册子不仅包含题目和答案,还详细记录了小张在解题过程中的思考方式、备选方法以及各种解题思路的出现概率。通过学习这本小册子,小张不仅学会了具体的题目,更重要的是掌握了老董解题思路,从而具备了举一反三的能力。在人工智能中,这种“教学”过程被称为模型蒸馏。例如,TensorFlow的R1模型是一个拥有6000多亿参数的超大型模型,普通人很难在普通电脑或手机上运行。然而,通过蒸馏技术,R1模型的能力被“浓缩”到一个15亿参数的小模型中,这个小模型不仅体积小、速度快,而且继承了R1的强大能力。
Deepfake的R1模型就是一个典型的例子。R1模型通过强化学习,完全依靠机器自己出题、自己解题,从而锻炼出了强大的思维能力。这种能力被蒸馏到Deepfake V3版本中,使其在思维链能力方面超越了传统的GPT。这表明,蒸馏技术不仅可以优化模型性能,还能推动人工智能技术的创新。
“蒸馏”行为的相关风险
所谓蒸馏技术(Knowledge Distillation)就是一种将复杂模型(教师模型)的知识转移到更小、更高效的模型(学生模型)中的技术。这种技术在提高模型效率、降低计算资源需求方面具有显著优势,但其应用也涉及一系列法律问题,主要包括知识产权、数据隐私和合规性等方面。
1. 知识产权方面
教师模型和学生模型的产权归属及具体使用过程可能引发侵权。
如果教师模型是由某个公司或研究机构开发的,其知识产权通常归属于开发者。然而,通过蒸馏技术生成的学生模型是否构成独立的知识产权则构成了疑问,甚至可能涉嫌侵权。同样,如果教师模型使用了受版权保护的数据或算法,学生模型可能会继承这些版权侵权问题。
如果蒸馏技术本身或相关算法已申请专利,使用这些技术则可能需要获得专利持有人的许可。若在未经授权的情况下使用受保护的模型或数据,可能导致侵权诉讼。
2. 数据隐私问题
数据使用合规性:蒸馏过程中通常需要使用大量数据来训练教师模型和学生模型。如果这些数据包含个人隐私信息,必须确保符合相关数据保护法规,如《通用数据保护条例》(GDPR)或《加州消费者隐私法》(CCPA)。
数据匿名化与去标识化:在使用数据进行模型训练时,必须确保数据经过适当的匿名化或去标识化处理,以避免泄露个人隐私。
数据跨境传输:如果数据涉及跨境传输,还需遵守各国的数据本地化要求,确保数据传输的合法性。
3. 合规性问题
行业监管要求:在某些具有高监管要求的专门行业(如金融、医疗、自动驾驶等),使用人工智能技术可能受到严格的监管。
透明度与可解释性:蒸馏后的学生模型可能比教师模型更难以解释,这可能与某些法律要求(如GDPR中的“解释权”)产生冲突。
伦理与公平性:任何AI 模型都会在一定程度上反映其训练数据中的偏见,同样,蒸馏技术甚至可能导致模型继承教师模型的偏见或不公平行为。也因此,确保模型的公平性和伦理性是法律合规的重要部分。
4. 许可问题
软件许可协议:如果教师模型是基于开源软件或第三方软件开发的,使用蒸馏技术时必须遵守相关的软件许可协议(如GPL、Apache等)。违反许可协议可能导致法律纠纷。
商业合同:如果教师模型是通过商业合作或授权获得的,使用蒸馏技术可能需要获得额外的合同许可,确保不违反合同条款。
5. 国际法律差异
不同国家对人工智能技术的法律监管存在差异。因此,在全球范围内应用蒸馏技术时,必须考虑各国的法律要求,确保满足合规性要求。
另外,在未来实践中也涉及到学生模型产生风险事件之后,是否能够、以及如何向教师模型追责的问题。
人工智能蒸馏技术在提高模型效率方面具有显著优势,但其应用涉及复杂的法律问题。企业在使用该技术时,必须充分考虑知识产权、数据隐私、合规性、合同许可以及责任归属等方面的法律风险,并采取适当的措施确保合法合规。建议企业在应用蒸馏技术前,咨询法律专家,制定相应的合规策略,以降低法律风险。
小结
一些人指责Deepfake“偷窃”了OpenAI的数据,但实际上,这种说法是站不住脚的。OpenAI的模型是闭源的,其推理过程并不对外输出,因此很难通过蒸馏技术获取其内部数据。相反,Deepfake通过独立创新,走出了一条完全不同的技术路线,其蒸馏过程并不涉及数据偷窃。
蒸馏作为一种合法且高效的技术手段,它将大型模型的知识和能力传递给小型模型,从而实现资源优化和性能提升。这种技术不仅在人工智能领域广泛应用,还推动了技术的创新和发展,不应将蒸馏技术污名化。奉劝“对面”好好研究技术,别整天“司法武器化”,最终摧毁自己的价值基本盘……