微软、谷歌和Meta用假数据训练人工智能模型

据彭博社报道,微软、谷歌和Meta等企业开始尝试使用假数据(fake data)以满足训练大模型的数据需要。

通常,人工智能企业会向出版商支付版权费用,获取利用其数据训练大模型的授权,或者自行在互联网中抓取信息。前者成本高昂且存在数量边界,后者常常引起版权争端(纽约时报就曾起诉微软不正当使用其文本数据)。而作为其替代,合成数据(synthetic data)或者假数据(fake data)获得越来越多的关注。科技公司可以利用自己的人工智能系统来生成文字和其他媒体文件,并以此用于模型的迭代升级,Anthropic 首席执行官达里奥·阿莫迪(Dario Amodei)称之为潜在的“无限数据生成引擎”,可以帮助人工智能企业避免引起许多法律、道德和隐私问题。Anthropic、Meta和谷歌纷纷表示已经开始使用假数据来开发他们最近的开源模型。

这一做法虽然能够在一定程度上解决数据短缺问题,但也存在诸多争议之处:有研究人员指出,通过ChatGPT生成的假数据导致他们研发的人工智能模型出现崩溃现象(model collapse);而另一部分研究者则认为假数据将放大一部分数据集存在的偏误与有害性(biases and toxicity)

本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。

本文链接:https://www.ttxsai.com/news/1925.html

滚动至顶部