王小川公布最新大模型,号称全球最长上下文,是 GPT-4 的 14 倍
王小川公布最新大模型,号称全球最长上下文,是 GPT-4 的 14 倍
搜狗创始人、百川智能创始人兼 CEO 王小川
国内大模型技术竞争加速,继讯飞星火、智谱推出最新产品之后,百川也迎来了新的大模型成果。
钛媒体获悉,10 月 30 日上午,王小川创立的 AI 大模型公司 " 百川智能 " 宣布,推出 Baichuan2-192K 大模型,其上下文窗口长度高达 192K,能够处理约 35 万个汉字。
百川智能称,Baichuan2-192K 是目前全球最长的上下文窗口,也是目前支持长上下文窗口最优秀大模型 Claude2(支持 100K 上下文窗口,实测约 8 万字)的 4.4 倍,更是 GPT-4(支持 32K 上下文窗口,实测约 2.5 万字)的 14 倍(1400%)。这不仅在上下文窗口长度上超越 Claude2,在长窗口文本生成质量、长上下文理解以及长文本问答、摘要等方面的表现也全面领先 Claude2。
据悉,Baichuan2-192K 将以 API 调用和私有化部署的方式提供给企业用户。目前百川智能已经启动该大模型的 API 内测,并开放给法律、媒体、金融等行业的核心合作伙伴。
据悉,百川智能成立于 2023 年 4 月 10 日,由搜狗公司创始人、前 CEO 王小川创立。其核心团队由来自搜狗、Google、腾讯、百度、华为、微软、字节等知名科技公司的 AI 顶尖人才组成。目前,百川智能的团队规模 170 余人,其中硕士及硕士以上学历员工占比近 70%,研发人员占比超 80%。
过去 200 多天,百川智能平均每 28 天发布一款大模型,已连续 Baichuan-7B/13B,Baichuan2-7B/13B 四款开源可免费商用大模型及 Baichuan-53B、Baichuan2-53B 两款闭源大模型,在写作、文本创作等领域能力已达到行业较好水平。目前,Baichuan-7B/13B 两款开源大模型在多个权威评测榜单均名列前茅,累积下载量超过 600 万次。
对于建立 AI 大模型公司,王小川曾表示,其团队已有的技术工具可以用来建造大模型,公司的竞争对手就是大公司的开源方案。王小川还认为,整个团队不用太大,百人足够。
8 月 31 日,百川智能率先通过国家《生成式人工智能服务管理暂行办法》备案,是首批八家公司中唯一一家今年成立的大模型初创公司,并于 9 月 25 日开放 Baichuan2-53B API 接口,正式进军 To B 企业端领域,开启商业化进程。
10 月 17 日,百川智能宣布已完成 A1 轮 3 亿美元的战略融资,阿里、腾讯、小米等科技巨头及多家顶级投资机构均参投了本轮。加上天使轮的 5000 万美元,百川智能累计融资额已达 3.5 亿美元(约合人民币 25.43 亿元)。
百川智能未透露当前具体估值,仅表示本轮融资后,公司跻身于科技独角兽行列。根据一般定义,独角兽估值超过 10 亿美元(约合人民币 72.66 亿元)。
此次发布的 Baichuan2-192K,百川智能表示在 Dureader、NarrativeQA、LSHT、TriviaQA 等 10 项中英文长文本问答、摘要的评测集上表现优异,有 7 项取得 SOTA,显著超过其他长窗口模型,全面领先 Claude2。
百川方面指出,扩大上下文窗口能有效提升大模型性能是人工智能行业的共识,但是超长上下文窗口意味着更高的算力需求和更大的显存压力。目前,业内有很多提升上下文窗口长度的方式,包括滑动窗口、降采样、小模型等。这些方式虽然能提升上下文窗口长度,但对模型性能均有不同程度的损害,换言之都是通过牺牲模型其他方面的性能来换取更长的上下文窗口。而本次百川发布的 Baichuan2-192K 通过算法和工程的优化,实现了窗口长度和模型性能之间的平衡,做到了窗口长度和模型性能的同步提升。
算法方面,百川智能提出了一种针对 RoPE 和 ALiBi 动态位置编码的外推方案,在保证分辨率的同时增强了模型对长序列依赖的建模能力,而且当窗口长度扩大,Baichuan2-192K 的序列建模能力持续增强;工程方面,在自主开发的分布式训练框架基础上,百川智能整合优化多个技术,独创了一套全面的 4D 并行分布式方案,能够根据模型具体的负载情况,自动寻找最适合的分布式策略,极大降低了长窗口训练和推理过程中的显存占用。
Baichuan2-192K 便能够与更多的垂直场景深度结合,真正在人们的工作、生活、学习中发挥作用,助力行业用户更好的降本增效。比如它可以帮助基金经理总结和解释财务报表,分析公司的风险和机遇;帮助律师识别多个法律文件中的风险,审核合同和法律文件;帮助技术人员阅读数百页的开发文档,并回答技术问题;还能帮助科员人员快速浏览大量论文,总结最新的前沿进展等。
目前,Baichuan2-192K 以 API 调用的方式开放给百川智能的核心合作伙伴,已经与财经类媒体及律师事务所等机构达成了合作,称不久后将全面开放。
王小川团队表示,百川智能 Baichuan2-192K 在算法和工程上针对长上下文窗口进行创新,验证了长上下文窗口的可行性,为大模型性能提升开拓出了新的科研路径。同时,其更长的上下文还将为行业探索 Agent、多模态应用等前沿领域打下良好技术基础。
(本文首发钛媒体 App,作者|林志佳)
-
- 南京玄武湖隧道 20 年来首次大修,夜间封闭持续一年
-
2023-11-01 06:34:48
-
- 深圳十大好吃的东西排行榜
-
2023-10-31 19:32:01
-
- 叶罗丽十大隐藏实力排行榜
-
2023-10-31 19:29:56
-
- 生态木反十大品牌排行榜
-
2023-10-31 19:27:52
-
- 成都好玩的景点排名前十 成都十大必玩景点排行榜
-
2023-10-31 19:25:47
-
- 互联网十大创业公司排行榜
-
2023-10-31 19:23:43
-
- 财富管理十大公司排行榜
-
2023-10-31 19:21:38
-
- 泉州本地物业十大排行榜
-
2023-10-31 19:19:34
-
- 童装十大品牌 童装加盟10大品牌排行榜
-
2023-10-31 19:17:29
-
- 深圳十大牙科排行榜[深圳牙科诊所十大排名]
-
2023-10-31 19:15:25
-
- 国内十大寿星排行榜[中国历史十大寿星排行榜]
-
2023-10-31 19:13:20
-
- 成都周边小众但值得去的景点
-
2023-10-31 18:50:51
-
- 白鹿原有什么好玩的景点
-
2023-10-31 18:48:35
-
- 德化有哪些景点好玩
-
2023-10-31 18:46:19
-
- 滇池有哪些好玩景点
-
2023-10-31 18:44:03
-
- 北京秋季好玩的景点排名榜
-
2023-10-31 18:41:47
-
- 安吉哪里好玩的景点推荐
-
2023-10-31 18:39:31
-
- 武汉室外游玩景点推荐
-
2023-10-31 18:37:15
-
- 海南昌江有什么好玩的景点
-
2023-10-31 18:34:59
-
- 安塞有什么好玩的景点
-
2023-10-31 18:32:43