当前位置:首页  >  行业资讯  > 正文

环球消息!用计算机训练计算机,人工智能如何自我学习?

环球消息!用计算机训练计算机,人工智能如何自我学习?
2023-02-27 11:27:40 来源:钛媒体APP

图片来源@视觉中国


【资料图】

人工智能的发展应用离不开数据。比如,训练当前大火的ChatGPT,就需要大量的数据——根据OpenAI披露,ChatGPT的训练使用了45TB的数据、近1万亿个单词大概是1351万本牛津词典所包含的单词数量。

基于庞大数据集训练而成的ChatGPT获得了前所未有的成功,而ChatGPT想要向前迭代,就需要更多的数据进行训练。但真实世界的数据总归是有限的,并且面临着难以获取、质量差、标准不统一等诸多问题。在这样的情况下,计算机模拟技术或算法生成的合成数据受到了愈发广泛的关注。作为真实世界数据的廉价替代品,合成数据正日益被用于创造精准的AI模型。

为什么需要合成数据?

顾名思义,合成数据就是通过计算机模拟或人工智能算法合成的数据,这样的数据并不基于现实世界的现象和事件,但由于在数学上或统计学上合成数据也能够反映真实世界数据的属性,因此合成数据可以作为真实世界数据的替代品,来训练、测试、验证AI模型

2022年以来,Forrester、埃森哲(Accenture)、Gartner、CB Insights等研究咨询公司都已经将合成数据列为人工智能未来发展的核心要素,认为合成数据对于人工智能的未来而言是“必选项”和“必需品”。

比如,Forrester将合成数据和强化学习、Transformer网络、联邦学习、因果推理视为实现人工智能2.0的五项关键技术进展,可以解决人工智能1.0所面临的一些限制和挑战,诸如数据、准确性、速度、安全性、可扩展性等。

Gartner预测称,到2024年,用于开发人工智能和分析项目的数据 60% 将是生成式合成数据,到2030年合成数据将彻底取代真实数据,成为AI模型所使用的数据的主要来源。MIT科技评论将AI合成数据列为2022年十大突破性技术之一,称其有望解决AI领域的数据鸿沟问题。

数据对于人工智能发展的意义不言自明——如果说以深度学习为代表的智能算法是人工智能应用和发展的“引擎”,那么数据就是用于驱动“引擎”的“燃料”。而合成数据之所以在今天会受到关注,正是因为目前现实世界的数据已经难以满足人工智能继续迭代,并向前发展的数据需求。

要知道,现实世界的数据收集和处理是一种昂贵且缓慢的过程,公司通常无法在短时间内获取大量的数据来训练准确的模型,就算是获取现实世界的数据也要符合隐私规定,然而,除去获取成本高昂以外,特定领域的数据集还受限于用户隐私,极难采集。可以说,现实世界数据的稀缺性已经成为人工智能发展的最大瓶颈——如何高效、廉价并在不侵犯隐私的情况下获取大量数据,成为当前人工智能领域的关键问题之一

合成数据就是这个关键问题的解法。首先,合成数据能够实现数据增强和数据模拟,解决数据匮乏、数据质量等问题,包括通过合成数据来改善基准测试数据的质量等;其次,避免数据隐私问题,利用合成数据训练AI模型可以避免用户隐私问题,这对于金融、医疗等领域而言尤其具有意义;第三,合成数据还能最大限度地确保数据多样性,更多反映真实世界,提升AI的公平性,以及纠正历史数据中的偏见,消除算法歧视;第四,合成数据能够应对长尾、边缘案例,提高AI的准确性、可靠性,因为通过合成数据可以自动创建、生成现实世界中难以或者无法采集的数据场景,更好确保AI模型的准确性。

不仅如此,合成数据还具有低成本的特点。合成数据服务商AI.Reverie指出,人工标注一张图片可能需要6美元,但人工合成的话只需要6美分。总的来说,利用合成数据可以更廉价、更高效、更准确、更安全可靠地训练AI模型,进而极大扩展AI的应用可能性,将人工智能推向新的发展阶段。

用计算机训练计算机

2021年,尼日利亚数据科学公司的研究人员就注意到,旨在训练计算机视觉算法的工程师可以选用大量以西方服装为特色的数据集,但却没有非洲服装的数据集。于是,这个团队通过人工智能算法成功实现了人为生成由非洲时尚服装的图像组成的数据来解决这一不平衡问题。

可以说,合成数据真正实现了用计算机训练计算机,这也让机器智能向前更进一步。实际上,人类的学习正是遵循着这样的方式,一方面,我们可以从外部信息来源收集知识和观点,比如,通过阅读一本书。但我们也可以通过思考一个问题,自发产生想法和见解,换言之,我们能够通过内部反思和分析来加深对世界的理解,而不直接依赖于任何新的外部输入。

而人工智能通过合成数据来自我训练,就像是人工智能也无需任何新的外部输入,而是通过合成数据来有效地引导它们自己的智能

试想一下,今天的人工智能大模型吸收了世界上存在的大量信息和数据,比如维基百科、书籍、新闻文章等。如果人工智能能够根据这些数据合成新的数据,然后再将这些合成数据进一步训练来改进自己,那人工智能就将不断迭代,且功能愈发强大。换言之,AI在合成数据构建的虚拟仿真世界中自我学习、进化,这将极大扩展AI的应用可能性。

实际上,用计算机训练计算机的想法并不新鲜,例如,无人驾驶汽车已经在虚拟街道上进行了许多训练。要知道,由于实际道路交通场景千变万化,因此,让自动驾驶汽车通过实际道路测试来穷尽其在道路上可能遇到的每一个场景是不现实的,必须借助于合成数据才能更好地训练、开发自动驾驶系统。

为此,许多自动驾驶企业都开发了复杂的仿真引擎来“虚拟地合成”自动驾驶系统训练所需的海量数据,并高效地应对驾驶场景中的“长尾”问题和“边缘案例”。比如,腾讯自动驾驶实验室开发的自动驾驶仿真系统TAD Sim 可以自动生成无需标注的各种交通场景数据,助力自动驾驶系统开发。

在安全的、合成的仿真环境中,计算机可以模拟任何人类想象得到的驾驶场景,诸如调节天气状况、添加或移除行人、改变其他车辆的位置等等。可以说,合成数据和仿真技术是自动驾驶的核心支撑技术。实际上,最早涌现的一批合成数据创业公司就瞄准的是自动驾驶汽车市场,帮助自动驾驶企业解决其在自动驾驶系统开发过程中所面临的数据和测试难题。

目前,合成数据还在向金融、医疗、零售、工业等诸多产业领域拓展应用,用计算机训练计算机正在成为人工智能发展的必经之路。

下一次飞跃

由于对人工智能未来发展的巨大价值,合成数据也加速成为AI领域的一个新产业赛道。

一方面,国外的主流科技公司纷纷瞄准合成数据领域加大投入与布局。微软的Azure云服务则推出了airSIM平台,可以创建高保真的(high fidelity)的3D虚拟环境来训练、测试AI驱动的自主飞行器,微软还开发了可以生成合成和聚合数据集的开源工具Synthetic Data Showcase,并创建了合成人脸数据库,和国际移民组织(IOM)合作打击人口贩卖。亚马逊则在多个场景探索合成数据的应用,例如使用合成数据来训练、调试其虚拟助手Alexa,以避免用户隐私问题;其合成数据技术Wordforge工具可以用来创建合成场景(synthetic scenes)。

另一方面,合成数据作为AI领域的新型产业,相关创新创业方兴未艾,合成数据创业公司不断涌现,合成数据领域的投资并购持续升温。据国外研究者统计,目前全球合成数据创业企业已达100家。在过去的18个月,公众视野中已知的合成数据公司融资总额达到3.28亿美元,比2020年高出2.75亿美元。

看起来,合成数据是对真实数据稀缺性的重要解法,但这并不代表合成数据毫无问题。首先,虽然高质量的合成数据集不仅可以作为真实数据集的补充,更可以作为训练人工智能模型的主要数据来源,但在全面应用合成数据集之前,需要充分研究合成数据集与真实数据集的差异,从而避免应用合成数据集带来的偏差。因此,如何评估合成数据集与真实数据集的差异仍是一个待解决的问题。

其次,合成数据仍存在“非自然数据”的问题。目前大多合成数据技术是基于统计机器学习方法的,由于经典统计学只关注了数据中蕴含的相关性,而忽视了因果性,因此有可能会生成不合逻辑的数据。比如,合成图像中可能会出现具有异常背景的图像,这类数据被称为“非自然数据”。“非自然数据”对智能算法的影响目前仍然未知。刻画影响的边界并提早思考应对办法将会是合成数据能否进入风险敏感领域的关键。

最后,合成数据仍然涉及的隐式隐私泄露问题。虽然“合成数据”并不由某个用户产生,但是目前的合成数据仍然需要借用数据来训练用于合成数据的模型,比如生成对抗网络。由于生成对抗网络结构的复杂度较高,因此在模型训练的过程中,存在记忆原始训练样本分布的可能。已经有最新研究结果表明,可以通过合成的数据反向推断出原始训练样本。所以,数据合成技术存在上述“隐式隐私”泄露问题,如何更严密地保护隐私仍是有待探究的问题

从数据到合成数据,当人工智能能够合成数据,并使用它来继续自我改变,这可能会使迫在眉睫的数据短缺变得无关紧要。对于人工智能来说,这将代表下一次的飞跃。

标签: 人工智能 训练计算机 真实世界

(责任编辑:news01)
环球消息!用计算机训练计算机,人工智能如何自我学习?

环球消息!用计算机训练计算机,人工智能如何自我学习?

图片来源@视觉中国人工智能的发展应用离不开数据。比如,训练当前大火的ChatGPT,就需要大量的数据——...
02-27 11:27:40
您应该知道的关于牙齿的 7 个重要事实 世界看点

您应该知道的关于牙齿的 7 个重要事实 世界看点

牙齿是我们人体的重要组成部分。它们帮助我们咀嚼食物、清晰说话并保持面部结构。尽管如此,许多人认为...
02-27 09:44:38
smart是什么车型_smart是什么车

smart是什么车型_smart是什么车

1、Smart是奔驰汽车的牌子。2、Smart是德国梅赛德斯-奔驰与手表巨头瑞士Swatch公司合作的产物。3、名称中的
02-27 07:56:20
12377

12377

1、12377是互联网违法和不良信息举报中心设立的免费举报电话、举报网站、举报邮箱。2、举报中心的工作目...
02-27 06:55:34
联赛杯夺冠次数:红军9次夺冠居首,曼城8次第二,曼联6次第三_今日最新

联赛杯夺冠次数:红军9次夺冠居首,曼城8次第二,曼联6次第三_今日最新

在22 23赛季联赛杯决赛中,曼联2-0击败纽卡斯尔,夺得队史第6座联赛杯冠军。目前,利物浦共9次夺得联赛...
02-27 03:08:07
“种下石榴树 开出团结花” 具体详细内容是什么

“种下石榴树 开出团结花” 具体详细内容是什么

“种下石榴树,开出团结花”今天的热度非常高,现在也是在热搜榜上了,那么具体的“种下石榴树,开出团...
02-26 23:00:46
天天播报:金锁玉关

天天播报:金锁玉关

1、《金锁玉关》又名“过路阴阳”。2、是风水流派中“峦头派”即“形式派”的书。3、宋国元所著。文章到...
02-26 21:15:31
“红树林之城”满是惊喜!外国专家这样点赞湛江

“红树林之城”满是惊喜!外国专家这样点赞湛江

文 羊城晚报全媒体记者王丹阳刘嘉文图 羊城晚报全媒体记者梁喻湛江又称红树林之城,红树林分布面积在...
02-26 19:14:15
稳婆 天天时讯

稳婆 天天时讯

1、稳婆,是旧时民间以替产妇接生为业的人。2、因历史时期和南北地域及民族文化的不同,其有“隐婆”、...
02-26 16:21:10
2021斯诺克世锦赛继续进行第一轮的争夺

2021斯诺克世锦赛继续进行第一轮的争夺

北京时间4月20日消息,2021斯诺克世锦赛继续进行第一轮的争夺。一场焦点比赛中,“一哥”丁俊晖轰出一杆...
02-26 16:00:36
十一月四日风雨大作夜阑卧听风吹雨一语双关 夜阑卧听风吹雨一语双关

十一月四日风雨大作夜阑卧听风吹雨一语双关 夜阑卧听风吹雨一语双关

1、“夜阑卧听风吹雨”紧承上文。2、因“思”而夜阑不能成眠,不能眠就更真切地感知自然界的风吹雨打声...
02-26 13:07:50
模拟饭店

模拟饭店

1、《模拟饭店》(英文名HotelGiant)是由EnlightSoftware公司制作的一款电脑游戏,由JoWo
02-26 10:41:30
小雷:目前的利物浦很脆弱,但他们依然有能力进入联赛前四|新要闻

小雷:目前的利物浦很脆弱,但他们依然有能力进入联赛前四|新要闻

小雷:目前的利物浦很脆弱,但他们依然有能力进入联赛前四,曼联,狼队,多特,利物浦,克洛普,热刺队,文字游...
02-26 10:00:52
美国诺福克南方铁路公司又一列货运列车发生脱轨事故

美国诺福克南方铁路公司又一列货运列车发生脱轨事故

当地时间2月25日,据美国当地媒体报道,继俄亥俄州火车脱轨事故发生后,美国诺福克南方铁路公司又一列货...
02-26 06:44:13
中国国际地下水模型中心

中国国际地下水模型中心

1、中国国际地下水模型中心隶属于中国地质调查局中国地质环境监测院。2、是一个致力于地下水模型研究开...
02-26 05:15:57
梦族网游公会

梦族网游公会

1、梦族网游公会始建于2007年10月08日,创始人:梦七夜。2、梦族是一群怀揣梦想的年轻人创建的虚拟网络...
02-26 01:20:05
魔兽争霸3 1.31.1 & 1.35

魔兽争霸3 1.31.1 & 1.35

1 31 1是最后一个独立的经典版,后面的版本就都是强行和重铸版绑定在一起了,不过自己安装之后打开就...
02-25 19:59:39
中国核桃网

中国核桃网

1、中国核桃网正是在充分利用互联网方面的优势,利用掌握的丰富的核桃行业的信息资源,以众多权威的中国...
02-25 19:47:45
国家知识产权局专利局调研组来湘潭调研考察-全球焦点

国家知识产权局专利局调研组来湘潭调研考察-全球焦点

调研现场。调研现场。座谈会现场。红网时刻湘潭2月25日讯(记者凌雨晴通讯员谢雅慧崔鲜伟)2月24日至25...
02-25 16:56:49
奥林匹克大逆转_焦点信息

奥林匹克大逆转_焦点信息

1、《奥林匹克大逆转》是2008年中信出版社出版的图书。2、作者是(英)麦克尔·佩恩。文章到此就分享结束...
02-25 14:12:09
爱立信宣布今明两年全球裁员8500人,称5G设备订单放缓-焦点要闻

爱立信宣布今明两年全球裁员8500人,称5G设备订单放缓-焦点要闻

据《华尔街日报》2月25日报道,瑞典公司爱立信当地时间周五表示,由于在该公司削减成本之际美国和其他市...
02-25 13:40:40
厉害了!新一代载人登月飞船模型首次展出

厉害了!新一代载人登月飞船模型首次展出

01:512023年2月24日下午,“逐梦寰宇问苍穹——中国载人航天工程三十年成就展”开幕式在中国国家博物馆...
02-25 11:00:36
赛琳娜号

赛琳娜号

1、歌诗达·赛琳娜号(CostaSerena)是歌诗达舰队中11 4万吨“协和级(Concordia)”的第二艘。2、
02-25 08:47:38
泾县气象局更新大雾橙色预警【II级/严重】 天天资讯

泾县气象局更新大雾橙色预警【II级/严重】 天天资讯

泾县气象局更新大雾橙色预警【II级 严重】
02-25 08:14:38
批答安禄山贺雪兼赐口号-天天报道

批答安禄山贺雪兼赐口号-天天报道

1、《批答安禄山贺雪兼赐口号》是盛唐诗人李隆基创作的一首五言绝句。本文到此分享完毕,希望对大家有所...
02-25 04:00:15
世界今热点:福特称将F-150 Lightning的生产继续暂停一周

世界今热点:福特称将F-150 Lightning的生产继续暂停一周

据美国消费者新闻与商业频道(CNBC)报道,福特2月24日表示,其电池制造商SKOn已恢复美国佐治亚州电动汽...
02-24 23:16:00
腭裂 聚焦

腭裂 聚焦

1、腭裂较为常见,可单独发生,也可并发唇裂。2、腭裂不仅有软组织畸形,大部分腭裂患者还可伴有不同程...
02-24 23:22:13
范子文范子豪百度百科_范子文范子豪

范子文范子豪百度百科_范子文范子豪

1、20130404。2、这一期。本文分享完毕,希望对大家有所帮助。
02-24 20:47:11
热门看点:无证酒驾遇查迅速换到副驾驶位,交警:“车上就你一人换位有用吗?”

热门看点:无证酒驾遇查迅速换到副驾驶位,交警:“车上就你一人换位有用吗?”

无证酒驾遇查迅速换到副驾驶位,交警:“车上就你一人换位有用吗?”
02-24 18:02:03
少女时代黄美英 环球简讯

少女时代黄美英 环球简讯

1、黄美英,1989年8月1日在美国加利福尼亚州旧金山市出生,韩国女歌手、主持人、演员。2、2004年因参加...
02-24 17:44:28

精彩推送