2月21日的新闻,近几个月来,在线发布的人工智能模型的流行飙升。这些排名表明,机器人在某些任务上的表现优于人类。但是专家说,实际意义并不多。

人工智能模型本质上是一组可以实现特定目标的代码包裹的数学方程。每个排名都根据AI模型完成特定任务的能力来跟踪最先进的模型。人们还可以从排名中看到主要科技公司之间的实时AI竞赛。
诸如和Paris初创公司之类的模型引起了人们对AI社区的极大兴趣,并争夺了高级排名。
但是,GPT-4模型继续主导着主要排名。
斯坦福计算机科学博士学生兼竞技场排名的联合创始人Ying Sheng说:“人们关心他们的技能。” “我认为人们实际上希望看到排名的变化。这意味着竞争仍然存在,还有更多的改进。”
图片:聊天机器人竞技场排名
AI模型的排名通常基于各种测试,以确定模型的一般功能,哪些模型可能是特定用途(例如语音识别)的最佳方法。这些测试有时称为基准,该测试主要根据指标来衡量模型性能,例如AI生成的音频的效果或聊天机器人的响应。
随着人工智能的持续发展,测试的演变也很重要。
斯坦福大学以人工智能研究所的研究总监 Parli说:“这些标准并不完美,目前,这是我们评估AI系统的唯一标准。”方法。”
Pali Works的研究所汇编了斯坦福大学人工智能指数(AI指数)。该年度报告在各种指标下跟踪人工智能模型的技术性能。帕利说,2025年的报告研究了50个指标,但只有20个指标被采用。今年的报告将再次删除一些较旧的指标,并突出显示更新,更全面的指标。
这些排名还可以使人们了解目前正在开发多少人工智能模型。截至今年2月初,开源机器学习平台面孔已经评估并排名4,200多个型号,所有型号均由人工智能界成员提交。
这些模型基于七个关键指标跟踪和测试模型,评估了各种能力,例如阅读理解和解决数学问题。其中包括测试这些模型在回答小学数学和科学问题,测试其常识推理技能以及衡量其重复错误信息的趋势时的表现。有些测试提供了多项选择答案,而另一些测试则要求模型根据提示自己生成答案。
访问排名以查看每个AI模型的特定基准性能得分和总体平均得分。在任何基准测试中,尚无模型的全部得分100。最近,由旧金山初创公司开发的人工智能模型Smaug-72B成为第一个平均得分超过80点的机器人。
在这些测试中,许多大型语言模型都在人类基准高于人类基准之上,这就是研究人员所说的“饱和度”。 Face的联合创始人兼首席科学官托马斯·沃尔夫( Wolf)表示,当建模功能超出特定基准之外,就像从初中到高中的学生一样,这通常会发生这种情况。否则,当模型记住如何回答某些测试问题时,此概念也称为“过度拟合”。
当发生这种情况时,当模型在以前的任务中表现良好时,它在面对新情况或旧任务的变化时表现不佳。
沃尔夫在一封电子邮件中写道:“饱和并不意味着我们的模型通常变得比人类更好。” “这只是意味着该模型已经达到了特定基准的点,即当前测试无法正确评估其功能,因此我们需要设计新的标准。”
一些基准已经存在了多年。对于大型语言模型的开发人员,很容易使用这些测试集来训练它们开发的模型,从而确保发行时高分。作为由学校间开放研究组织大型模型组织创建的排名列表,Arena使用手动输入来评估人工智能模型来解决此问题。
帕利说,研究人员还希望在测试大型语言模型方面更具创造力。也就是说,更全面地判断,而不仅仅是一次查看一个特定指标。
她说:“这主要是因为我们发现更多的传统基准是饱和的,而手动评估的引入将为我们提供一些方面,这些方面无法用于计算机等基于代码的评估测试。”
竞技场允许游客向两个匿名AI模型提出任何问题,然后投票决定哪种聊天机器人将提供更好的答案。
到目前为止,竞技场排名根据超过300,000人的手动票的结果,将大约60款车型排名。根据创作者的说法,自竞技场排名不到一年前以来,网站访问已大大增加,而竞技场现在每天获得数万票,并且该平台收到了太多的请求来添加新车型以适应所有模型他们的模型。
Arena联合创始人Wei-Lin是加州大学伯克利分校的计算机科学博士生。他说,团队进行的研究表明,众包投票几乎与雇用人类专家测试聊天机器人一样高质量的结果。他承认有不可避免的异常值,但是团队正在开发算法来检测匿名访客的恶意行为。
尽管基准很有用,但研究人员也承认,他们并不是无所不能的。 Face联合创始人沃尔夫(Wolf)认为,即使模型在推理基准上得分很高,在分析特定用例(例如法律文件)时,它的表现仍然可能很差。
他补充说,这就是为什么一些业余爱好者喜欢通过观察AI模型在不同环境中执行的“情感检查”的原因,从而评估了这些模型如何成功与用户互动,保持良好的记忆并与他们的个性保持一致。
尽管基准测试存在缺陷,但研究人员说,相关的测试和排名仍然可以鼓励AI开发人员继续创新。他们必须不断提高标准,以跟上最新评估。
来源| 技术报告
# 人工智能模型排名飙升:GPT-4主导
# 谷歌Gemini与Mistral-Medium竞逐前列
# 人工智能模型排名飙升
# GPT-4主导
# 他们的
# 斯坦福大学
# 还可以
# 这就是
# 沃尔夫
# 这种情况
# 开发人员
# 斯坦福
# 托马斯
# 旧金山
# 这是
# 他说
# 太多
# 就像
# 都在
# 第一个
# 多个
# 饱和度
# 互动
# 她说
# 涪陵区网络推广营销公司
# 全福街道seo网站推广
# SEO咨询服务价格
# 确山全网推广营销中心
# 宝鸡网站建设方案php
# 康平正规网站建设概况
# 大冶seo获客ppt
# SEO资源教程
# 乌海网站推广公司
# 广西移动营销推广
# 宿州推广营销口碑
# 红色诵读网站建设方案
# 衡水网站推广外包
# 白城seo培训哪个便宜
# seo文章收录工具
# 荆州seo优化技巧
# 马鞍山网站建设工作室
# 建筑材料网站建设
# 东宁网站建设网站制作
# 杭州抖音营销抖音推广
相关文章:
广告联盟源码不知道在哪下载?这个广告联盟平台源码推荐给你!
SEO行销:开启网站流量增长的秘密武器,佛山网站建设shundeit
朔州,历史与现代交融的绿色能源之城
SEO开发:数字营销的核心驱动力,贵阳营销策划推广方案
广告投放的渠道和方法有哪些?各自的优势在哪?
2020年可以用手机赚钱的app有哪些?
SEO但是,这些常见误区你真的知道吗?,温州品牌营销推广价格
主题导航-引领互联网世界的智慧之路,湖南网站推广运营面试题
互联网时代,这9大app网络推广方法必须得掌握!
服装文案关键词优化步骤,精准定位,提升营销效果
你想象不到的新型休闲游戏广告联盟的盈利能力!
新手在信息流广告投放过程中最常见的7个问题及解决思路!
什么是网赚广告联盟?网赚广告联盟的收入怎么样?
SEO未来:如何在变革中抢占先机,迎接数字营销的新纪元,云浮关键词排名多少钱
SEO永远,数字营销的核心力量,网站优化图片js链接怎么优化
月入过万的网赚项目app拉新赚钱业务分享!
关键字罗列-提升搜索引擎优化的秘密武器,十堰全网推广网站有哪些
关键品牌:在竞争激烈的市场中如何脱颖而出,市场推广营销效果评估报告
SEO努力:提升网站排名的关键策略,seo实践教学
揭秘利用百度小程序挂广告赚钱的操作玩法,竟然还可以这样玩?
app推广运营人员必须要知道的10个app推广方法和渠道!
SEO使用:如何让你的网站轻松登顶搜索引擎排名,来个网站建设公司推荐
怎么样才能高效的操作项目赚钱呢?你不妨可以这样做!
免费收录:助你网站腾飞的绝佳机会,汾阳灯箱网站建设
微信朋友圈广告的主要推广方法有哪些?
百度、腾讯、头条加入广告联盟三国杀,谁能独占鳌头?
大连做网站,打造个性化品牌形象,助力企业互联网发展,大连专业网站定制,塑造独特品牌形象,推动企业互联网进程,大连专业网站定制,塑造企业个性化品牌形象,助力互联网发展
关键效果:如何通过聚焦核心要素,突破瓶颈,创造卓越成就,营销和定向计划怎么推广
免费建设网站,轻松打造个人品牌与在线影响力,零成本打造个人品牌,免费网站建设攻略,零成本打造个人品牌,免费网站建设攻略全解析
网站推广引流如何做才能让流量暴涨?
引流渠道和平台有哪些?目前主流的引流渠道和平台都在这了!
怎么评估我们的产品或者服务是不是适合联盟营销?
深入解析网站优化的重要性与实现 *** ,深度探索,网站优化的重要性及其实施策略,深入理解网站优化,重要性、实现 *** 及有效策略
文章引流该怎么做?做好这6点流量源源不断!
《权重参谋:让您的网站轻松登顶搜索引擎的秘密武器》,晋安区数字化营销推广项目
SEO词的魔力:如何通过关键词优化打破流量瓶颈,美国建设网站
如何通过贴吧来进行推广引流?
掌握了这9个推广的qq沟通技巧,轻松提高转化率!
“新关键词”开启智慧营销新篇章,助力品牌突围,徐州网站广告推广招聘
想要通过网络营销引流获客?这10种最常见的方法必须掌握!
常见的五种网络兼职赚钱骗局套路,一定要小心!
适合新手利用联盟平台上面的广告来赚钱的3个方法!
兴趣部落+qq空间引流推广联盟产品日赚1000+玩法分享!
全网爬行:数据时代的隐秘力量,紫金网站制作推广运营
教你如何通过发红包就可以赚钱的网赚项目操作思路!
优化页面-提升用户体验与搜索引擎排名的关键,福州广告优化师招聘网站
SEO获取流量的必杀技:如何通过优化轻松提升网站排名,上海网站建设服务好做吗
新手如何辨别一个广告联盟是不是骗子?
app运营精细化如何做?这三个核心指标务必明确!
信息流广告为什么受广告主喜欢?
*请认真填写需求信息,我们会在24小时内与您取得联系。