【CS】浅析HLTV rating 2.1
【本文约4000字】
HLTV于本周一正式发布并实行了rating 2.1以替代CS2赛事中使用的rating 2.0,让我们来看看新版本的rating有何特别之处。
我们已对rating 2.0进行更新,保枪获得的奖励降低,并调整平均数据以适应CS2。HLTV上的所有CS2比赛和数据页面都推出了rating 2.1,并对2017年首次推出的rating 2.0公式进行了细微调整。
我们已经玩了一年的CS2,是时候更新rating背后的数据了。这是为了减少保枪的奖励,并调整平均数据,使其与MR12和“造成至少26点伤害记作助攻”(而非CS:GO的41点)相符。rating公式的基础保持不变,有10个子rating,分别与T方和CT方的击杀、生存、造成伤害、KAST和Impact有关。
本次调整还将导致任意一届CS2赛事(而非一张地图或一个赛季)的平均rating为1.00。rating 2.0在2017年发布时的情况就是如此,但此后几年平均值一直在偏离。此外,该公式基本未变——更大范围的rating 3.0更新正在开发中。
评析:
HLTV此次更新的主要目的非常明确。首先是针对臭名昭著的HLTV Play之一——保枪,不过请注意HLTV的措辞是“减少保枪的奖励”,也就是说保枪带来的生存仍然会获得奖励而非惩罚,只是奖励程度不如胜利回合的生存那么大而已。其次是根据CS2相较于CS:GO的机制变化做出对应的调整,比如CS2的助攻伤害阈值从CS:GO的41点下降至26点,也就是说助攻更容易产生,助攻相关的数据的平均值就会升高,若仍然使用CS:GO的评价方式就不合时宜了,HLTV对此做出改动是很自然的。不过除了HLTV,其他人并不清楚MR12本身对rating究竟有何影响。
变更日志
— 使用一年的CS2数据调整平均值
— 任意一届赛事的平均rating恢复至1.00
— 在CS2中,生存、Impact和KAST对于rating 2.0来说过于重要,因此现在所有5个子rating具有同等权重
— 在失败回合中生存(保枪)的奖励较少
— 受助攻击杀获得的奖励比rating 2.0更多,因为现在只需要造成26点伤害就记作助攻,而非41点
评析:
第一条变更实际上与rating 2.0的情形是一致的,即rating 2.0自2016年便开始施行,但直到2017年HLTV才正式开始使用稳定的rating 2.0体系。这也是为什么2016年Top 20选手的海报上展示的rating 2.0以及Impact与如今搜索到的数据有明显差距,很可能是因为2017年推出的rating 2.0已经根据2016年的数据进行了校准。也就是说,过去我们使用的rating 2.0很可能本质上已经是“rating 2.1”。
但HLTV没有解决一个潜在的问题,即上文提及的“此后几年平均值一直在偏离”,这是因为自从2017年后,rating 2.0并没有经过再次校准,它仍然是“不准确的”,或者说未归一化的。HLTV本质上采用了一种“刻舟求剑”的方式,即根据过去的样本调整未来使用的rating,所以这只能保持短期内的相对准确。rating 2.1的推出不是太早,而是太晚了。
第三条变更的含义是,正是因为缺乏及时的校准,生存、Impact和KAST三个子rating的平均值自发地偏离1.00,其原因可能是外部因素的转变(保枪的重要性增加、从MR15到MR12的转变和助攻伤害阈值的下降等)。于是HLTV将三者重新归一化。
第五条变更实际上可以这样理解:在CS:GO时期,只需要造成至多59点伤害就可以完成受助攻击杀,但来到CS2后,这一上限增加至74点,意味着完成受助攻击杀需要造成的伤害的期望值上升了,HLTV自然应当更多地奖励造成伤害更多的情形。
为什么我们需要rating 2.1?
本次修复的原因很简单。多年来,随着有组织的保枪增多(导致生存增多、击杀减少、造成伤害减少),子rating的平均值与2017年推出rating 2.0时决定的平均值不同。
CS2发布后,平均值进一步受到MR12的影响。值得注意的是,助攻伤害阈值(助攻是击杀、KAST和Impact子rating的一部分)从41点变为26点。这意味着CS2的平均rating上升到1.06左右,因为玩家的实际表现超出了CS:GO时期的期望值。rating 2.1将修复此问题,因此我们预计任意一届赛事的数据会比以前略低,平均rating将恢复到1.00。
除了调整平均值外,rating公式本身也已经更改,以减少选手在失败回合中的生存所获得的奖励。在没有击杀或助攻的失败回合中生存不再获得KAST点数,并且生存子rating认定失败回合中的生存比获胜回合中的生存重要性更小。
示例
实际上,本次更新意味着像Jame这样在VP的CS2比赛中20%的失败回合保枪的选手,会受到相对于rating 2.0的惩罚。这是我们随机抽选的一场VP的比赛的数据截图,在这场BLAST春季小组赛中,C9以13:10的比分击败VP。
Jame在击杀和造成伤害两方面的输出较低,并且在T方保枪一次,在CT方保枪两次,rating从2.0版本的1.00下降到2.1版本的0.88。总体而言,由于更新了平均值,所有人的rating都略有下降。
以下是六届赛事中的示例,随着rating更新到2.1,这些选手的赛事数据显著下降:他们都存在大量保枪的情形。
评析:
我们可以看到,无论是具体到某届赛事的数据,还是整个CS2时期的数据,几乎所有选手的rating 2.1都相较于rating 2.0有不同程度的下降。对于大部分选手来说,下降的幅度为0.02-0.04,当然也有一些选手遭到了更严重的惩罚,他们往往是保守狙击手、自由人、主防者和VP的选手们。不难理解,上述选手会比激进步枪手或狙击手更频繁地保枪,“在没有击杀或助攻的失败回合中生存不再获得KAST点数”这一改动对前者的影响显然比后者更甚。
即使不考虑保枪的因素,由于rating 2.1归一化了所有子rating,它必然比2024年的rating 2.0更直观地描述选手的真实水平。1.00的rating 2.0在2024年实际上已经意味着一位选手的表现不可忽略地低于平均水平,但1.00的rating 2.1表明他恰好位于基准线上。
一个有趣的问题是,更新之前的生存、Impact和KAST子rating平均值明显超过1.00,在这三个子rating平均值归一化后,上文提及的保守狙击手、自由人和主防者受到了明显的惩罚——这显然要归因于生存和KAST子rating平均值的归一化。那么为什么高Impact的选手似乎没有受到显著影响呢?
实际上并不是没有影响,而是高Impact的选手在其他方面“弥补”了负面影响。既然生存、Impact和KAST子rating平均值因归一化而降低,那么其对于整体rating的权重也降低(从略高于20%下降至恰好20%),变相导致击杀和造成伤害子rating的权重升高(从略低于20%上升至恰好20%)。高Impact的选手的rating 2.1相较于rating 2.0下降较少,正是因为他们往往兼具强劲的击杀和造成伤害能力,即使在Impact子rating上受损,他们也同时在击杀和造成伤害子rating上受益。这样的结果正是HLTV乐于见到的——鼓励更多的击杀和造成更高额的伤害。
rating是如何计算的?
rating背后的公式仍是保密的,但我们可以透露rating 2.0和2.1背后的一些元素,以增进社区用户的理解。首先是子rating,所有五个子rating在T方和CT方都有不同的平均值。
此外,它们还包括多个因素。击杀子rating赋予首杀和“完美”击杀(击杀者没有受到任何伤害的击杀)更多价值,而赋予受助攻击杀更少价值。生存子rating奖励被补枪死亡,惩罚送出首杀(现在还包括保枪——尤其是在T方)。
Impact子rating基于多杀回合(根据选手在该回合中获得的击杀和助攻次数而获得不同的奖励)、首杀和残局,衡量在一回合内制胜的爆发力。而KAST子rating旨在衡量从回合到回合之间的稳定性。它现在是选手获得击杀、助攻或被补枪死亡的回合数加上生存的胜利回合数占总回合数的百分比。
评析:
与rating 2.0相比,rating 2.1的主要变化有三点。首先,所谓的“完美”击杀获得更多的奖励,HLTV这一改动的目的尚不明确。其次,送出首杀受到的惩罚比一般的死亡更多,失败回合的保枪获得的奖励比胜利回合的生存更少,KAST也除去了失败回合的保枪的贡献,这都是比较合理的改动。最后,Impact子rating加入了多次助攻回合的贡献,大概是变相鼓励造成更高额的伤害。不过总体而言,rating公式在本次更新中没有显著的变化。
经济系统在哪里?
这就是为什么这是rating 2.1,而不是rating 3.0。我们已经开始采用实时回合胜率、经济系统和其他各种修饰,对rating进行根本性改革。但这是一个长期的过程,我们还没有完成。
然而,我们不想让rating 3.0的开发阻碍我们制作一个规模较小但意义重大的版本,因为HLTV颁奖典礼即将到来。我们不认为rating 2.1是一个完全体,而是通向我们的主要目标——rating 3.0途中的一个站点,后者才是新一代rating,将更准确地评估选手的表现。
评析:
HLTV终于将在新一代的rating 3.0向Leetify rating看齐,引入实时回合胜率和经济系统的影响因素。届时,rating 3.0将有效地“惩罚”另外两大臭名昭著的HLTV Play,即eco击杀和保枪过程中的无效击杀,因为它们对实时回合胜率的影响微乎其微。
但是,HLTV将如何融合HLTV rating和Leetify rating这一对“水火不容”的数据?HLTV和Leetify对游戏风格的好恶早就是公开的秘密了,前者不断地鼓吹激进的风格,而后者默默地惩罚激进的选手。
以上图中展示的BLAST秋季总决赛图四为例,激进步枪手malbsMd和iM的HLTV rating显著高于狙击手队友m0NESY和w0nderful,而Leetify rating则恰好相反。究其原因,HLTV和Leetify对于“破局”和“残局”的价值认识有着云泥之别。
对于“破局”的情形,HLTV认为,在双方经济对等的一回合中,一次成功的首杀可以将开局时50%的回合胜率跃升至至少70%,是一回合中最有价值的击杀。一位首杀尝试率极高的选手,即使其成功率较低,他还是造成了大量的首杀,这些首杀往往能轻松地转化成回合胜利。但在Leetify眼中,一位首杀成功率在50%上下的选手能造成多少首杀就能送出多少首杀,对于回合胜利的贡献净值几乎为零。
至于“残局”的情形,HLTV并不是完全不重视,而是其对“残局”的定义较为严苛——必须是在1vs.n的情形下击杀所有对手才记作残局胜利。而Leetify注重“残局”的观念则可以这样粗浅地理解:在一次获胜几率相当的1vs.1残局中,获胜的选手直接将回合胜率从50%倍增至100%,他才是最有价值的终结者。对于其他诸如2vs.2等均势“残局”下产生的击杀,Leetify对其的奖励自然也比HLTV多不少。
在HLTV rating和Leetify rating之间,哪个数据更好,哪个更坏?这是个说不清的问题,调和折中总是更符合我们的性情,更周全、更符合大多数人的eye test的实时回合胜率计算模型亟待开发。总之,需求是急切的,任务又是艰巨的,HLTV在未来的工作任重而道远。
转载请注明出处
原文链接: /posts/190vhHi8