期货

因此大部分预测集中在高Brier分数区间同花顺期货

字号+ 作者:admin 来源:未知 2025-10-31 03:49 我要评论( )

因此大部分预测集中在高Brier分数区间同花顺期货 【新智元导读】AI能像科幻影戏中的先知相同预测他日吗?一个名为「Prophet Arena」的全新基准测试,正通过预测确凿全邦变乱来评估AI的「预言」本领。 以ChatGPT为代外的AI,则能够依照过去的语料来「预测下一

  因此大部分预测集中在高Brier分数区间同花顺期货【新智元导读】AI能像科幻影戏中的先知相同预测他日吗?一个名为「Prophet Arena」的全新基准测试,正通过预测确凿全邦变乱来评估AI的「预言」本领。

  以ChatGPT为代外的AI,则能够依照过去的语料来「预测下一个Token」。

  那题目来了,AI能不行像先知相同,从全全邦的凌乱音讯里寻找蛛丝马迹,切实地预测他日呢?

  正在昨晚的男篮亚洲杯冠军掠夺战中,中邦男篮虽以1分之差惜败澳大利亚,但已是近十年来的最好收获!

  坚信绝大部门人都不会猜到这个比分,那么,AI能否依照中邦队此前的体现,提前预测到呢?

  更进一步的,AI能否像拉普拉斯妖相同,正在获取了当来世界的完全音讯后,切确预测他日的整个?

  倘若它能正在某一倏得清晰宇宙中完全粒子的职位与速率,而且统统通晓自然顺序。

  这日要先容的Prophet Arena即是一个通过及时更新简直凿全邦预测职业来评估AI体系预测智能的基准测试。

  把墟市共鸣、主动化预测、音讯收拾和社区洞察团结起来,酿成更强的满堂预测本领

  为「人机配合」而生:你能够给AI供给线索,看看它的预测怎样改观;AI也会把它的思索经过告诉你。

  直面确凿全邦:AI的预测直接与确凿的投注决定挂钩,体现好的模子真的能正在虚拟墟市里赚到钱。

  Prophet Arena以及时预测墟市变乱为依托,初度树立了一个无法「刷题」的动态基准。

  Prophet Arena从像Kalshi和Polymarket如许的预测墟市平台挑选热门、众样且周期性简直凿变乱动作考题。

  Kalshi是一家美邦的金融业务所和预测墟市平台,是美邦第一个受美邦商品期货业务委员会(CFTC)禁锢的、埋头于业务「变乱结果」的业务所

  AI模子们欺骗寻找引擎,像侦探相同网罗闭于某个变乱的消息报道,收拾成一份精辟的「谍报简报」。同时,也会把当时的墟市代价(能够看作是公众的团体聪敏)放进去。

  拿到雷同的谍报后,每个AI模子都要提交一份精确的「预测通知」:对完全不妨的结果给出一个概率散布,并附上长篇大论的来由,阐明自身为什么这么看。

  变乱解散,结果揭晓。会用一套专业的目标来评估AI的预测终归有众准,然后更新正在一个及时排行榜上。

  排行榜闭键看两个目标:一个是量度切实度和校准度的Brier分数(越高越好),另一个是模仿确凿投注的均匀回报(看谁能赢利)。

  除了上述两个中枢目标外,Prophet Arena还采用了受统计学和心思衡量筑模诱导的高级评估措施,如项目反映外面(Item Response Theory,IRT)和广义Bradley-Terry(BT)模子。

  正在Brier分数不高(0.3-0.5分)的区间里,反而出生了很众回报率惊人的预测。

  好比一场温布尔登网球赛,赛前墟市普及以为选手保罗有84%的胜率,乃至正在开赛前一度攀升至95%。

  恰是这细微的不同,让模子不才注时,以为押注敌手奥夫纳获胜的「性价比」更高。

  你看,AI并没有切实预测到胜者,是以它的切实度分数(Brier分数)很凡是。

  这申明,成为一个切实的先知和成为一个赢利的投资者,是两种不统统雷同的技巧。

  为了探求这一点,查抄了每个Brier得分区间的模子组成,每个模子用分歧的颜色体现。

  绝大大批LLM正在预测时偏向于与主流音讯维系一概,是以大部门预测鸠合正在高Brier分数区间。

  好比正在「AI禁锢法例会正在2026年前成为联邦国法吗?」这个变乱上,墟市以为不妨性唯有25%。

  激进派代外Qwen3:它看到各式法案都正在胀动,以为势头很猛,直接给出了75%的超高概率。

  顽固派代外Llama 4 Maverick:它也看到了同样的音讯,但以为立法经过庞大又迟钝,是以只给出了比墟市略高一点的35%。

  AI的预测并非随机,它们有着机闭化的推理和奇特的危机偏好,就像人类专家也会有见识分裂相同。

  比如正在圣地亚哥与众伦众的美邦职业足球大定约竞争中,o3-mini正在1美元的投注上得到了9美元的回报。

  依照墟市数据和消息泉源,o3-mini预测众伦众获胜的概率为30%,而墟市隐含的概率仅为11%(代价=0.11)。

  尽量众伦众是不被看好的一方,但AI识别到了正的生机值,并因为其最大的上风比率30%/11%≈3。

  它总能找到少许墟市没谨慎到的轻细不同,然后下注正在那些「性价比」超高的选项上。

  就像正在上面那场足球赛中,墟市以为众伦众队唯有11%的胜算,但o3-mini源委阐明以为有30%。

  是以,正在预测的全邦里,告成的症结不正在于每次都对,而正在于你对的时间能带来众大的回报。

  数值越低(颜色越深的单位格)体现概率推理更亲密一概;数值越高(颜色越浅的单位格)则声明分裂越大。

  个中一个了得的模子是DeepSeek R1,它的预测结果一再与其他模子天渊之别。

  与Kimi K2、o3和Llama 4 Maverick等模子比拟,它的L2间隔永远高于0.7,这声明其不妨采用了分歧的校准形式或内部决定机制。

  正在频谱的另一端,诸如Grok-4和GPT-5之类的模子常常作出高度一概的预测,L2间隔常常低于0.3。

  换句话说,这张图闪现了AI预测的众样性:有些模子酿成「群体共鸣」、有些模子像「特立独行的反驳者」。

  设思,AI体系将成为预测墟市的踊跃参加者,将人类的直觉洞察与AI健壮的数据阐明本领相团结,最终擢升总共社会的团体远睹,为那些高危机的决定供给更牢靠的凭借。

  结果,倘若说讲话模子的下一步是预测下一个词,那么它的终极形式,也许即是预测这个确凿全邦的下一个变乱。

  格外声明:以上实质(如有图片或视频亦网罗正在内)为自媒体平台“网易号”用户上传并宣布,本平台仅供给音讯存储办事。

  70岁米歇尔剖明52岁巩俐:嫁给我,我年入5亿!巩俐:我每周做4次有氧运动,你跟得上吗?

  3172人!南京大学2026年吸收推举免试商量生拟入选名单公示,新环境显示

  ColorOS 16正式版已推送:11款机型尝鲜升级,你的机型正在内吗?

  iQOO Neo11已正式宣布:比较iQOO Neo10,终归有众少擢升?

  vivo X300s:搭配6.6英寸屏!vivo X300 Ultra:6.8英寸屏!

转载请注明出处。

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 其次是四季度电解铝利润估值(4500)要比1-9月(均值3600)高900

    其次是四季度电解铝利润估值(4500)要比1-9月(均值3600)高900

    2025-10-25 13:01

  • 期货看盘软件哪个好大赛组委会有权取消其上榜排名资格

    期货看盘软件哪个好大赛组委会有权取消其上榜排名资格

    2025-09-21 13:41

  • 这样即了解客户又增加粉丝黏性_外盘期货交易平台

    这样即了解客户又增加粉丝黏性_外盘期货交易平台

    2025-09-09 23:41

  • 短债产品的组合可能会更加严格地调整波动类资产的占比期货在哪里

    短债产品的组合可能会更加严格地调整波动类资产的占比期货在哪里

    2025-07-24 10:25

网友点评