自从ChatGPT走红以来,不少企业和机构竞相开发大语言模型。然而,这种分散资源、能耗巨大的开发模式正为业内反思,“开源”成为一种替代性出路。
开源大模型正在发展中,它能提供“巨人的肩膀”,也能促进技术破壁和跨界交流。5月末,“猎鹰(falcon)”模型进行开源,迅速在全球开发者中掀起使用旋风。
【资料图】
6月12日,中国国产开源大模型也又添一子。智源研究院发布了“悟道3.0”,进入全面开源新阶段,反映开源形式对大模型的推动力量受到更多重视。
然而,“开源”也有其弊端。南方财经全媒体记者在采访中了解到,“猎鹰”模型的开源带来了商业权益的争议,“开源”是否也可通过许可证方式进行利润分割?此外,“开源”的技术范畴应包括哪些?业内期盼的重点开源资源是什么?受访者表示,“开源”是业内迫切的需求,但发展阶段仍然比较初期。
开源下的商业争议
自从5月25日宣布对研究和商用领域进行开源以来,“猎鹰 40B”大语言模型便成为了软件届最热门的大模型之一。不过直到6月上旬,围绕这种创新开源形式的商业化许可证仍正在引发业内激烈的争议。
以往多数已开源的大模型仅对研究目的开源,而猎鹰 40B的商用开源具有“打破壁垒”的意义。此外,通过包含推理、一小组科学问题、常识推理、真实性等在内的系列测试后,猎鹰 40B和DeepMind、Google和Anthropic的最先进大语言模型表现相当。
因此,猎鹰 40B在开源社区Hugging Face的开源模型排行榜上迅速登顶成为人气第一名,直至6月13日,这个排名也不曾动摇。
“猎鹰 40B”开发者是阿联酋阿布扎比技术创新研究所(Technology Innovation Institute,简称TII)。该所介绍,该模型参数(parameter)量为400亿,可见它一反此前大模型追求大参数的趋势,走了一条不寻常的道路。
TII称,“猎鹰 40B”特别关注数据质量,数据管道扩展到数万个CPU内核进行快速处理,通过过滤和重复数据删除,从而提取高质量内容。
这个模型在今年3月首次亮相,但在5月25日进行了开源,这意味着TII提供了对模型权重的访问。“在当前的人工智能生态系统中,开发人员发现提供模型权重访问的LLM更具吸引力,因为与没有模型权重相比,它们提供了增强的微调功能。”TII在官网上写道。
为何采取开源方式?TII称,开源技术允许全球开发人员分享他们的专业知识,从而促进软件增长和增强,促进协作并推动创新;它还促进了透明度,使用户能够检查和验证代码的安全性和可靠性。
不过,在这个开源举动之后,“猎鹰”陷入一场争议。按照最初的商用协议,TII规定对猎鹰 40B“收入超过100万美元的任何商业应用要收取10%的授权费”。
开源软件通常使用的是Apache 2.0软件许可证。AI数据及模型解决方案供应商工程师林涌告诉南方财经全媒体记者:“Apache 2.0是一种广泛使用的开源协议,它允许使用者进行使用、复制、修改、分发甚至商用,唯需要包含原著的license(著作权)信息。”由于这种共享属性,一般来说,业内称原著作者为“贡献者”。
林涌指出,TII当时宣称自己使用Apache 2.0,但又修改了其中关键的部分,令业界哗然。因此,甚至有业内声音认为,修改后的猎鹰 40B不再具有真正的开源性质。
出于对业内反对声音的回应,TII已经在5月31日宣布,“猎鹰 40B”免除所有商业和研究用途的版税(royalty),以应对全球对包容性人工智能的需求。
不过,也有业内评价指出,由知名游戏开发商Epic开发的开源游戏引擎“Unreal Engine(虚幻引擎)”也采取了类似的许可证方法。虚幻引擎的许可证分为标准化和定制化两种,在标准化许可证下,小型项目、业余爱好者、学习者可以访问虚幻引擎的所有特性和材料;在企业项目和定制化项目下,收取每年每席1500美元或者协商后的其他价格。通过这种方法,基于虚幻引擎进行的游戏开发商给Epic缴纳了大量使用费。
虚幻引擎的做法,给基础大模型开发商平衡成本提供了一条思路,但显然在大模型界,这种思路的具体实行还没有达成共识。
“开源”关键点为何?
在AIGC的浪潮中,“开源”的使用群体正在变得越来越强大。激发业界使用“开源”,也需要业内共创良好的互助环境,并争取宝贵的开源资源。
“开源需求应该说迫在眉睫。”某通讯公司开源战略总监陈实(化名)告诉南方财经全媒体记者,“面对抢跑的海外巨头,其他人不能只做跟随者,也要团结起来做创新者。”
随着GPT-4未能公布训练集内容,行业龙头OpenAI被冠上一个讽刺的外号“ClosedAI”。而大模型的开源之路,似乎变得有点堵塞。
近期,智源研究院副院长兼总工程师林咏华也指出了开源大模型的必要性。“在基础大模型上重复‘造轮子’,是很昂贵的,不仅是算力和数据本身很昂贵,而且还耗费了大量的电力能源。”她指出。进一步地,每个基础大模型还要不断进行版本迭代,意味着上述成本和投入要持续增加。
不过现实情况是,已开源、能商用的基础大模型通常没有那么好用。对此问题,陈实表示:“可以走两条路,开源的走to B(面向企业),闭源的走to C(面向个体)。”他解释称,to C的意思是“定制化”,根据使用者公司的特定需要、内部数据集进行模型开发训练,从而最终产品能产生“生产力”;to B的意思是“普及化”,给业界用于学习和代码参考,或者用于开发一些简单应用,例如“让每个企业都用上对话机器人”。
为何开源会在质量上产生参差、如何才能提升开源质量呢?目前,业界将问题关键指向了“数据开源”。
算力、算法、数据被称为AI的“三驾马车”,前期生成式AI爆发中,业内对于算力、算法关注度较高,但相对忽视了数据的重要性。“猎鹰”模型此次反而提醒了数据质量在模型质量中的关键作用。
基于一万亿个tokens和400亿个参数训练出来的猎鹰 40B,不仅在性能媲美其他高性能大语言模型,而且使用的训练算力只相当于GPT-3的75%、Chinchilla的40%、谷歌PaLM-62B的80%。
“其实模型只是数据的一个投影,数据质量的高低具有决定性的因素。”陈实指出。
然而,为何高质量数据难以获得?陈实告诉南方财经全媒体记者,这主要因为数据天然的隐私性。
“真正高质量的数据,存在于公司里、在一线机构里,但它们普遍都受到数据墙的保护。”陈实解释。例如,医院数据是生物制药企业最为渴求的一线资源,但这显然牵涉病人隐私,也有后续使用上的不少隐患。
眼下,大模型开源已经在底座、训练方法和工具链上相继实现,未来一大核心将在“数据开源”。
“一大问题是,龙头人工智能开发公司是否愿意参与到数据开源中。”陈实表示怀疑,由于龙头公司往往能占据行业绝大多数的利润,它们通常很难与同行达成合作、分享成果。
建立第三方机构作为数据中介,可能是“数据开源”的一种解决思路。“数据中介可以一定程度消除信任问题,也能增加数据的流通性。”陈实表示。
(文章来源:21世纪经济报道)
-
【全球报资讯】逐浪AIGC|大模型“开源”成势 许可费厘定和数据壁垒成发展关键自从ChatGPT走红以来,不少企业和机构竞相开发大语言模型。然而,这种
-
环球即时:突出“制造业当家” 金融服务供给质效提升突出“制造业当家”,近期多个银保监局出台举措以提升制造业金融服务供
-
滚动:4S店提车套路_4s店提车陷阱1、一辆车的价格被4S的门店分成四部分:裸车价、购置税、保险、上牌和
-
教育部公布首批111个国家级职业教育教师教学创新团队名单中国教育报-中国教育新闻网讯(记者欧媚)教育部近日对首批国家级职业
-
天天快报!强风化泥质粉砂岩怎么描述_强风化泥质粉砂岩1、能。2、中风化岩石单轴抗压强度一般50MPa,强风化小于10MPa,桥梁基
-
美媒披露美国史上最大诈骗案 涉案金额达2800亿美元据美联社当地时间6月12日报道,在新冠疫情期间,美国政府发放的4 2万亿
-
当前动态:阳澄湖大闸蟹如何蒸(阳澄湖大闸蟹怎样蒸)阳澄湖大闸蟹如何蒸,阳澄湖大闸蟹怎样蒸这个很多人还不知道,现在让我
-
情书 第三季(情书第3季)1、任何一个节目都会有落幕的时刻,姜虎东结婚后就基本上很长一段时间
-
每日热议!【视频】严查!事关电动自行车自南京交警4月份开展电动自行车集中整治百日行动以来,除了通过执勤警
-
全球快看点丨美国5月未季调CPI同比上升4% 创2021年3月以来新低美国5月未季调CPI同比上升4%,连续第11次下降,创2021年3月以来新低;
-
天天即时:中老铁路国际客运开行两月 运送跨境旅客逾2.5万人次(李扬 王琨)记者13日从磨憨出入境边防检查站获悉,截至当日,中
-
南京3宗宅地出让前一天宣告延期,住宅成交量连续两个月下降 全球实时南京3宗宅地出让前一天宣告延期,住宅成交量连续两个月下降,南京,安置
-
当“AI换脸诈骗”遇到浦发城西金融志愿者,教您如何守住“钱袋子”|世界播报现代快报网是由凤凰出版传媒集团旗下的现代快报倾力打造的江苏新闻门户
-
今日快看!石家庄市藁城区南营镇重视“三夏”生产及防火工作6月7日,石家庄市藁城区南营镇召开“三夏”生产工作和防火工作部署会。
-
信息:【一带一路故事】阿迪尔的电建旅程巴沙大坝,是巴基斯坦期盼已久的“世纪工程”,是关乎巴基斯坦民生福祉
-
公司破产拖欠的工资还能要回来吗一、公司破产拖欠的工资还能要回来吗公司破产拖欠的工资还能要回来;公
-
今日关注:和顺电气涨20.00%和顺电气涨20 00%
-
中国水利工程协会网(关于中国水利工程协会网的基本详情介绍)1、2018年2月6日。2、中国水利建设工程协会被民政部社会组织管理局列入
-
证券印花税税率是多少_证券印花税税率1、证券印花税根据书立证券交易合同的金额对卖方计征。2、税率为千分之
-
斯科特·杰埃克(关于斯科特·杰埃克的简介)斯科特·杰埃克,科特·杰埃克的简介很多人还不知道,现在让我们一起来
-
环球新资讯:手工石刻手工石刻,是中国传统文化中非常重要的一个艺术门类,它以其独特的
-
笔记本电脑如何连接投影仪_电脑如何连接投影仪1、将投影仪的电缆插入计算机接口,按wini打开设置窗口,然后单击打开
-
每日简讯:非京籍孩子小升初升学手续如何办理?在小升初的关键阶段,是选择公立初中还是选择私立初中,这个问题众说纷
-
大模型浪潮推动之下,数据中心的“液冷时代”将给谁带来机会?_全球观察大模型浪潮推动之下,数据中心的“液冷时代”将给谁带来机会?,数据中
-
当前视讯!萝卜小鱼汤的做法_小鱼汤的做法1、银鱼洗净,用料酒和盐腌制半小时。将鸡蛋和面粉打成面糊,加入胡椒
-
日照:强信心 稳经济 促发展| 旭科新材料全球首套万吨级丁二酸酐项目投产直播日照6月12日讯旭科新材料(山东)有限公司经过科研攻关,近日稳定
-
2026年四大洲花样滑冰锦标赛落户北京|天天热点据中国花样滑冰协会微信公众号消息,北京时间6月12日,国际滑冰联盟理
-
《双向奔赴》——关爱新就业形态劳动者④:奔跑 滚动现代快报网是由凤凰出版传媒集团旗下的现代快报倾力打造的江苏新闻门户
-
6月13日生意社PTA基准价为5596.36元/吨6月13日,生意社PTA基准价为5596 36元 吨,与本月初(5614 55元 吨)相比
-
腰肌抽筋是什么原因_腰抽筋怎么回事-快消息1、对于腰部抽筋的患者:1。2、缺钙,多见于青少年和中老年人生长发育