“我们可能会收集公开的在线信息或来自其他公共来源的信息,帮助训练Google的人工智能模型。”近日,谷歌更新隐私政策,表示将利用网络公开数据训练旗下的AI模型,相关条款已于7月1日生效。
谷歌的这一动作引发争议,单方面通知用户的行为是否合法合规?此举又是否有“囤数据”之嫌?
此前,Twitter和社交网站Reddit已经采取措施,限制第三方对其API的访问。国外科技公司的一系列举措背后,可能是大模型发展路上一个不可忽视的真相:训练数据的重要性愈发显现。随着大模型产业的快速发展,出于市场竞争的需要,模型规模将快速膨胀,但同时可用于训练的数据供给相对不足,且未来日趋稀缺。
未来,数据或将成为AI发展的“兵家必争之地”。
“囤数据”训练AI模型
近日,谷歌更新隐私政策,表示将利用网络公开数据训练旗下的AI模型。在隐私协议的“可公开获取的资源”一栏,谷歌提到:“我们可能会收集公开的在线信息或来自其他公共来源的信息,帮助训练Google的人工智能模型。”该大模型将会为谷歌翻译、谷歌旗下聊天机器人产品“Bard”及Cloud AI等产品和功能提供助力。
对比去年年底发布的上一版隐私政策,谷歌将“收集信息以帮助训练语言模型”的相关措辞更改为“训练人工智能模型”,并新增明确了自家AI产品对于数据的使用权利。这似乎意味着,谷歌在训练旗下聊天机器人及其他AI模型,或未来开发AI产品的过程中,有权使用人们在网上公开发布的任意内容。
南方财经全媒体记者在检索后发现,7月5日,谷歌中文版隐私政策也已经进行同步更新。
在竞天公诚律师事务所合伙人袁立志看来,此次谷歌隐私政策的更新从实践角度看不算重大变化。“无论在我国还是域外,对公开数据的正常收集和使用,在一般情况下不算违法。”不过他补充道,如果个人通过发送邮件等方式向信息处理者就相关使用表露明确拒绝,对其个人信息的收集和使用就应当停止。
北京大成律师事务所高级合伙人邓志松也表示,就目前可获得的信息而言,谷歌对收集与处理用户个人信息的范围和目的作出了详细说明,即使以欧盟GDPR项下更为严格的“告知-同意”规则为标准,谷歌的这一收集与处理行为至少在形式上具有合法性。至于其实施过程中可能涉及的实质合法性判断,及由此可能对AI等行业产生的影响,则尚待进一步观察。
虽然此次更新并未对个人信息保护带来影响,但暗藏背后的数据隐忧却逐渐被公众注意到。
“得数据者得天下”
数据是数字经济时代的“新石油”,处在时代中的人工智能技术亦受其影响。
以OpenAI的几代GPT模型为例,训练数据上,GPT-1预训练数据量仅有5GB;到了GPT-2,这个数据则增加至40GB;而在GPT3模型下,OpenAI用以训练模型的数据集数据量达到了惊人的45TB。
“大模型时代,得数据者得天下。”对外经济贸易大学数字经济与法律创新研究中心执行主任张欣指出,一方面,训练数据是大模型训练的基石和燃料,如果没有数据,大模型的训练就无法开展和持续;另一方面,当前技术领域的研究显示,各家大模型在算法层区别并不大,并且具有同质化的趋势。在此背景下,训练数据就成了真正区分且影响大模型性能的重要因素之一。
需求渐长,供给端却并未马上配合。目前,有多家处在“数据提供端”的公司对数据抓取、开源等做出了反应。比如Twitter限制了用户每天能查看的推文数量,几乎使数据提供服务无法使用。马斯克表示,这是对“数据抓取”和“系统操纵”的必要反应。
今年1月,图库网站Getty Images对AI图像生成器研发公司Stability AI提起法律诉讼,指其非法复制和处理版权图像作为模型训练数据。4月,环球音乐集团发函要求Spotify等音乐流媒体平台切断AI公司的访问权限,以阻止其版权歌曲被用于训练模型和生成音乐。
同样在4月,Reddit官方宣布将对调用其API的公司收费,原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。此外,IT技术问答网站Stack Overflow也计划向AI大模型的开发者及公司收取数据访问费用。
6月,中文在线、同方知网与中国工人出版社等国内25家文化出版机构发出共同倡议,强调“为人工智能学习模型提供可靠、稳定、安全的内容来源”等AIGC版权保护问题的重要性。
科技公司的系列动作,一定程度反映了数据的重要性。
在7月2日全球数字经济大会人工智能高峰论坛上,昆仑万维科技股份有限公司CEO方汉表示,高质量数据对大模型发展至关重要。
“坦白地讲,最近三年的大模型训练积累的是对丰富的预训练数据深度加工的能力。OpenAI所有公开的论文和讲演,对训练过程和训练算法都是公开的,但其从不公开模型结构及数据处理。”方汉指出,目前全世界大模型预训练团队都试图重现OpenAI在模型架构的动作以及预训练数据的动作,任何一家企业的预训练数据加工能力都至关重要。
数据稀缺、分散难题何解?
数据的重要性不言而喻,高质量数据更是稀缺品。
早在去年,一项来自Epoch Al Research团队的研究就揭示了一个残酷的事实:模型还要继续做大,但数据却不够用了。研究结果表明,高质量的语言数据存量将在2026年耗尽,低质量的语言数据和图像数据的存量则分别在2030年至2050年、2030年至2060年枯竭。
这意味着如果数据效率没有显著提高或没有新的数据源可用,那么到2040年,模型的规模增长将放缓。
百舸争流是市场竞争的常态,但过分竞争也有可能为行业带来灾难。限制数据抓取,很可能导致新一轮的数据大战,进而引发平台之间屏蔽、数据垄断等问题。
国际标准化组织TC/154技术专家王翔指出,大模型的蓬勃发展对训练数据提出了很高的数量和质量要求。在供给侧,人口增速、用网时间下降、制度性地理约束提高、高质量数据匮乏等都在制约大模型未来发展,SOP化和转发习惯也降低了供给能力;在需求侧,无论是主观治理思路还是客观基础设施条件,以及大型语言模型所有者应对市场的考量,都会持续强化数据垄断。
此外,大模型训练中,面对的高质量数据的稀缺、行业数据分散等问题应如何解决?
受访专家指出,未来健康的生态需要市场侧和监管侧等多方的共同建设维护。
“首先还是需要相信市场的力量”,袁立志指出,随着优质数据的需求逐渐显现,各个市场主体都会被“无形的手”推动向前。“数据资源的寻找、汇聚、清洗、标注等各个环节预计都会因竞争的活跃而不断改善,以满足市场需求。”他表示。
张欣则具体指出,目前行业内的开源数据集正在不断增多,未来应呼吁更多人工智能企业、从业者加入,建立更加良好的行业生态。“人工智能训练时的众包思路也非常重要。”她认为,企业之外,还可以善用技术社群的力量提升并开拓更多的高质量数据集。
而监管侧,在张欣看来,从法律法规层面明确训练数据集的合法性获取路径是监管下一步应当关注的重点。“只有明确了合法获取的路径,大模型训练者才有更稳定的合规预期以开展工作。”
袁立志认为,监管侧数据要素市场的建设深入会为大模型领域的发展带来良性影响。“数据要素市场建设走深意味着数据流通利用全流程提速提效,自然也惠及大模型的训练数据收集。”