Question

如何评价最新的RWKV论文 (arXiv 2305.13048)？

RWKV: Reinventing RNNs for the Transformer Era

https://arxiv.org/abs/2305.13048arxiv.org/abs/2305.13048

@PENG Bo 等人最新力作。

作为一个RNN，效果媲美Transformer，并且具有较低的复杂度。

39 个回答

和异性合租是种怎样的体验？

墨绿枭

我的房东是个北京女孩，她第一次见我时，穿了身学生服，我还以为她是个学生，后来才知道，是她男朋友喜欢她这样穿。不光如此，她还有很多稀奇古怪的衣服，但我从没想过，有一天，她这些衣服，会为我而穿……我叫陈浩宇，之前，我谈了个女朋友，都快结婚了，可她家里提了个要求：必须在北京有房子。我工资虽然还行，却还是追不上北京的房价，家里也帮不了多少，所以最后，她跟我分了手，和一个北京人好了。我特伤心，当然也结束了同居，我发誓，一定要在北京买上自己的房子，因此，为了攒钱，我去回龙观租了个很小的卧室，跟房东同住。我房东是个女孩，长相是甜美型的，名叫林一璐。我们第一次见的时候，她穿了身学生装，裙子很短，显得腿很长，小腿上的黑袜尤为性感，我那时土了吧唧的，啥也不懂，还问她，你是学生？她笑着跟我解释，这身衣服叫 JK，是种制服，穿着玩的，因为她男朋友喜欢。当时，我还夸她，你很爱你男朋友啊。可我那时并未意识到，其实，她男朋友心理是有点问题的。璐璐的房子挺大，一百二十多平，我参观后感叹，她年纪不大，就有自己房子了，好厉害。她说，这是十年前，她爸见房价涨得太猛，贷款买的，当时只有一万多一平，现在已经涨到六万了，幸亏买得早，不然现在肯定买不起。我算了算，好家伙，值七百多万了，北京的房价太吓人了。她说，她跟她男朋友住主卧，有独立的卫生间，我们基本不会相互影响，也让我放心。看得出来，她很真诚，谈妥之后，我们就签了约。周六，我搬了过来，当时是早上八点，我本不想吵醒她，没想到，她竟在客厅里迎接我，还特地穿了一身女仆装。我受宠若惊，璐璐很热情，模仿着日式礼仪，欢迎我入住，还帮我收拾行李，倒不像房东，像个全职女管家。说实话，她这身女仆装，刻意改成了性感款，胸口若隐若现，她弯腰帮我拿东西时，我都不好意思看她。我心想，她往后要是天天这么穿，我可未必把持得住啊。但她落落大方，并没觉得尴尬，倒让我觉得，自己思想有点龌龊。我俩正忙活着，主卧的门开了，一个男的揉着眼睛出来，不耐烦地说：「大清早干嘛呢，不让人睡觉了啊？」我一愣，璐璐赶紧起身，说：「别怕，这是我男朋友，董博文。博文，来认识一下，这是咱们的新房客，陈浩宇。」她男朋友看了我一眼，我微笑点头，他却说：「哦，你就是那个小外地。」我脸僵了一下，这人怎么这么说话？璐璐赶紧道：「你别这么说，人家是客人。」董博文冷笑：「什么客人，不就每月花一点钱，租了个小次卧么？要我说，也真够省的。」我挺生气的，璐璐向我道歉：「浩宇，他这人就这样，嘴上刻薄，心眼还好，你别当回事。」我点了点头，没说什么。但是，这第一印象，我就感觉，他不是善茬。董博文大摇大摆地去了客厅卫生间，解开睡裤就撒尿，也不关门。璐璐尴尬地给他关上门，告诉我：「以后这个客厅的卫生间，只让你用，等我跟他说说，你先别介意哈。」我说没事，熟了就好了。收拾得差不多了，璐璐要做点早餐，我们一起吃，我见厨房还有碗筷没洗，说帮她洗洗，就进了厨房。可这时候，董博文从厕所出来，说：「哎，璐璐，你不是说他不用厨房么？」我赶紧解释：「我是想帮忙收拾一下，没别的意思。」董博文说：「别，璐璐肯定跟你说过，这屋子之所以租给你，是因为你不会做饭，不用厨房。按我理解，不用厨房的意思，就是不进厨房，你可别一来就坏了规矩。」璐璐是说过，我住的次卧，之前是租给她闺蜜的，后来她闺蜜结婚搬走了，一直在找新房客。本来，她不想租给男生，可觉得我人干净，而且还不用厨房，再加上这屋子空置了快半年了，所以，才租给了我。我当然会遵守约定，可董博文分明是故意找茬，我见璐璐又要为我说话，赶紧退让：「好，那我回屋，再收拾收拾。」璐璐不好意思地点头，董博文却故意迎着我的面进去，从后面搂住了穿着女仆装的璐璐，在她耳边说：「宝贝，给主人做什么好吃的呢？」主人？这个称呼，像是开玩笑，但我总感觉，董博文有一种强烈的占有欲和控制欲，不太正常。我当然也知道，他这也是做给我看的，但我没理会，回了屋。后来，我收拾好了东西，吃了璐璐送来的三明治，就关了门，在屋里补了个觉。傍晚，璐璐敲我的门，邀请我一起吃饭，说她做了几道菜，算是为我接风。我说这太客气了，而出了屋子才看到，璐璐换了一身旗袍，前凸后翘的，透着股东方古典美。董博文大模大样地坐在沙发上看电视，斜眼看了我一下。我有点尴尬，只能夸了句璐璐：「这旗袍，挺好看。」璐璐说了声谢谢：「这身衣服，是博文亲自给我挑的，他很喜欢。」我点点头，董博文头也不转，说：「我就爱看璐璐变装，我喜欢什么，她就穿什么，你这小外地，也跟着挺饱眼福吧？」璐璐听了，脸一红，低下了头，我也没说什么。我的感觉越发强烈，董博文就是控制欲很强，而璐璐，似乎又很听他的话，看来，这小子的心智不简单。但那时，我并未想到，他就是想控制璐璐，因为，他在精心策划一个大局。董博文显然很得意，又说：「不过，你可千万别白天看了，忍不住，晚上关起门干猥琐事啊。」我听得一阵堵心，说：「你放心，我不是那种人。」他轻笑了一声。饭菜上桌后，我们三个一起吃，璐璐的手艺很好，尤其是那道油焖大虾，味道很正，但吃饭的气氛，却有点不尴不尬。董博文竟然故意当着我的面，搂住璐璐的腰，还让璐璐给他夹菜。璐璐不太好意思，但看得出来，她很爱他，硬着头皮满足他的各种要求。我坐在对面，真像在吃狗粮，我不由得想起了我前女友，心里有点难过。可董博文还时不时出言讽刺我。他说，很难想象，一个人毕业这么多年了，竟还会租一个次卧，暗讽我穷。璐璐一直在帮我打圆场，可她越这样，董博文越过分，甚至，还借着酒劲儿调侃我说：「老陈啊，我知道，你单身狗不容易，平时少不了生理需求，可我们作为房东，得给你立两条规矩。」我没吭声，璐璐在扯他衣襟。他继续说：「第一，你不准带女生回来，因为次卧本来就是一个人住的，有欲望呢，你外面解决去。第二，自己在家，少做猥琐事，即便忍不住了要做，也不要出声……」「博文，你说什么呢？」璐璐生气了。董博文却摆手：「哎，单身男人的痛苦，你不懂啊。」我心里不舒服极了，但只能冲璐璐的面子，不搭理董博文。吃了会儿，我实在不愿再听他逼逼，借口还有文案要写，回了屋。但我听到，董博文故意在外面跟璐璐说：「哎，亲爱的，家里多了个人，咱们再也没法在客厅沙发上逍遥了，真遗憾啊。」璐璐显然在低声拦他。我越发确定，董博文是个强势的人，通过不断向我明里暗里挑衅、宣战，就足以看得出。但我也在琢磨，他这股强势背后，似乎有什么不可告人的原因，毕竟，这太刻意了。接下来的日子里，我尽量避免跟董博文接触，甚至连璐璐，我都故意少见，一回家，就关门待在屋里。可难免的，我去客厅上厕所，会偶尔碰到璐璐，不得不说，她的各种制服，确实很多，几乎天天不重样，但都有一个特点，都很性感。我心想，这肯定都是董博文让她穿的，她也太听话了，被董博文拿捏得死死的。并且，每当晚上八点以后，我上厕所时，会听到，他们卧室里传来一些羞羞的声音，有时候，是董博文在乱叫脏话，有时候，则有一些「噼啪」的声音，像是皮质的东西发出的。我心想，董博文这小子，必定是故意的，他盼着我会听到，刺激到我这条单身狗。而除此外，在平日，董博文经常故意给我制造麻烦，比如把自己的臭袜子塞进客厅卫生间的洗衣机里，也不洗，等我要洗衣服的时候，一打开，里面臭气熏天，根本没法用。还有，他几乎每时每刻都在下载电影，我能检测到网速分配情况，家里的网，被他占得几乎没法用，我只能开着 5G，花自己的流量。而每当我不在家，我快递到了，如果是他接的，会直接告诉快递小哥，查无此人，造成一系列麻烦，为此，我不胜其烦。但是，璐璐一直对我很好，每当她知道董博文为难我，总会向我道歉，还时不时把做的好吃的送我一份，所以，冲着她，我都忍了。可董博文对璐璐的这些做法，很不满意，他好像经常暗中为此「惩罚」璐璐，许多时候，我没意识到，但是有一次，我发现了一个细节。那是周六晚上，有人送了璐璐一箱螃蟹，璐璐非叫我一起吃。在桌上，董博文一直黑着脸。我权当没看见，我心想早吃完早回屋，不理会他。不过，那天，我有点拉肚子，刚吃了两只螃蟹，就忍不住，去了厕所。等我出来时，本不想吃了，但我发现，董博文脸色好了很多，还主动邀请我，赶紧回来坐。我莫名其妙地坐下，跟他们聊天，我以为，是璐璐劝好了董博文。可聊着聊着，我发现不太对劲，璐璐身上，好像有电器震动的声音，我心想，是手机调成了震动模式，装进了兜里吗？那声音若隐若现，璐璐的表情，也跟着时而紧张，时而轻轻咬着嘴唇，时而还翻一下白眼，就像有什么东西，让她受不了似的。我心想，璐璐为啥不接电话呢，有啥不方便的？我以为董博文也听见了，可他浑若无事，只是左手一直插在睡裤兜里。这太奇怪了，一通电话而已，至于么？难不成，璐璐有什么秘密，瞒着董博文？不像啊。那电话的震动声一直都若隐若现，我也不方便提出来，而吃了没多久，我借口还有事，就回了卧室。我关门的那一刻，似乎瞥见，董博文嘴角，浮起了讪笑。我瞬间想到，难道，不是手机震动？我顿时脸红了，细思极恐。可是这事儿我没再多回味，我只越发觉得，董博文是个变态。不过，我毕竟只是个外人，他俩怎么相处，跟我没关系，人家开心就好。璐璐虽然人好，但也说不定，她喜欢那样的有点坏的男朋友，世事不往往如此么？可我并没想到，其实，璐璐跟他在一起，过得也不开心，那天，因为一件小事，他们的矛盾，彻底暴露在了我眼前，我终于明白，一直以来，我没看错董博文。那天，是璐璐生日，她没在外面过，在家里做了顿西餐，还考了几个蛋挞。我下班回来，她敲门送给我蛋挞，穿着一身护士装，但她抱歉地跟我说：「今晚就不请你一起吃饭了，博文说，要跟我吃烛光晚餐。」我接过蛋挞，连连点头：「当然当然，那我就不打扰了，你们好好过生日哈，生日快乐。」璐璐一弯腰，说：「好啦，那就请你自己好好休息，晚上记得盖好被子，不然着凉了，医生可要给你打针的哟~」她这番话，搭配这身护士装，真是又调皮又风情万种，看得我五迷三道的。晚上，董博文回来，我听到他们在客厅准备了会儿，就回了卧室。但也就过了半个多小时，我听到，外面一阵吵嚷。怎么回事？当时我在打游戏，赶紧起身，开门出去，竟发现，主卧门敞开着，董博文正大声骂璐璐：「我就知道你一直防着我，对我根本不是真心的，还编瞎话，说是你爸妈不同意，我看，就是你们三个在给我演戏！」璐璐哭得一脸梨花带雨：「博文，你听我解释，我一直在想办法说服我爸妈，我真的爱你……」我上前问道：「你们俩咋了，怎么好好的，吵起来了？」但同时，映入我眼帘的一幕，让我面红耳赤，我看到，璐璐已经脱下了护士装，改换了一身极为性感的衣服，我也说不上是什么风格，反正，就是一身比基尼式的酒红色泳衣，还穿着黑色的渔网袜。她脸红扑扑的，显然是喝了酒，嘴上还涂着烈焰红唇，美艳到了极点。我赶紧低下头，可已经来不及了，董博文说：「哟，看得挺过瘾啊，怎么，我跟她吵架，你心疼了，要出来当护花使者？」我支支吾吾：「我不是那个意思……」「那是什么意思？！」董博文突然叫道，「我早看出你俩不对劲儿了，你八成早就跟她睡过了吧？你搬进来，就是你俩演的戏，想在我眼皮子底下，过过出轨偷情、给我戴绿帽子的瘾，对不对！」这说什么呢，他疯了吧？与此同时，我又看到了一个不该看的东西，他们房间地下，由于吵架，已经一团散乱，而我看到，有一根皮鞭子，被丢在了角落。但我无暇顾及这些了，我说：「你别乱说！」他却咄咄逼人：「乱说？我不在家的时候，你俩没少亲热吧？她天天穿这么骚，为的就是勾引你！」璐璐听了这话，也生了气，她擦着眼泪道：「博文，你怎么能这么说？我穿这些衣服，不都是你要求的么，你说你喜欢，我才为你而穿的啊！」董博文却胡搅蛮缠：「我让你穿，你就穿，我让你吃屎，你也吃屎吗？你就是别有用心，想勾引这个小白脸！你巴不得我赶紧搬走，给你们腾地方呢。」璐璐一听，直接愤怒了，她起身道：「你到底在说什么？行，那你走吧，我就当自己犯傻，瞎了眼！」我一见事情要更坏，赶紧劝：「别别，咱们都冷静冷静，博文，你给璐璐道个歉……」「道歉？我去你妈的，我走，你俩爱怎么偷怎么偷去吧，你再也不用天天听墙根儿撸了！」董博文直接打断我，穿鞋要出去。但是，他觉得不解恨，又回了屋，抓起桌上的红酒瓶，「啪」一声摔碎，而后，摔门而去，还骂了句：「婊子配狗，天长地久！」说实话，我都快出离愤怒了。璐璐也又气又悲，一下坐倒在地，也不管撒了一地的红酒，浸透了她的网袜和三角裤。我只能赶紧安慰璐璐，想把她扶起来，可她喝了酒，人又很崩溃，一个劲儿抽搐着哭，在椅子上坐不住。我没办法，赶紧抽了两张纸巾，红着脸，把她大腿下侧的红酒擦去，将她扶上了床。璐璐一个劲儿在哭，我不知道说什么好，只能问：「璐璐，你们怎么突然吵起来了，不会是真是因为我吧？」璐璐一边抽泣，一边摇头：「不是因为你，其实，我俩之间有件事，一直没解决，经常为此吵架。」「什么事？」璐璐让我给她抽了张纸巾，擦了擦鼻涕和眼泪，慢慢平息了下来，才给我讲：「我俩恋爱一年多了，都有结婚的意思，但是，博文要求，必须在房产证上，加上他的名字，重新立合同，他心里才踏实，才肯结婚。」我挺意外。璐璐接着说：「我很爱他，是同意的，但是，我爸妈觉得，他这个要求有些过分，而且，我爸一直觉得，博文的言行举止，很像那种有各种歪心思的男的，他不太放心。」其实，我赞同璐璐爸妈，毕竟，房子是璐璐家买的，凭什么因为结婚，就加上博文的名字？而且，璐璐确实是情人眼里出西施，觉得博文哪都好，据我看，董博文未必是什么好东西。璐璐说：「就因为我爸妈不同意，所以，他时不时就跟我吵，好几次，都被我安慰下去了，没闹起来。但今天，我们一起喝了点酒，他把话题又说到了房产证的事上，就没控制住，发了火，并且，他确实借题发挥，说我有外心，跟你有……不正当关系。我当然受不了他这么说，所以，才吵了起来。」我全明白了，董博文太可恶了，自己想争房产就争房产，怎么还往我身上泼脏水？我没说话，但我分明感到，璐璐说完这些，越发生气，她接着讲：「平时，除了这件事，我对他可以说是要多好有多好，他喜欢看我穿各种稀奇古怪的衣服，我就买了，满足他，而且，他还要我买各种玩具，我也都买了，甚至连环卫服我都买了，放在床下行李箱，可谁能想到，他还这么不满足，竟这样对我！」璐璐说着说着又哭了，有点控制不住。我下意识地望望床下，再看看她这一身性感的样子，真替她感到不值。而且，连环卫服都有，董博文到底有多变态啊？我对那个行李箱里的东西好奇极了。璐璐哭着哭着，可能是没撑住，差点跌下床，我下意识地伸手扶她，可一不小心，跟她上半身贴在了一起，说实话，我也不是根木头，她的胸口露在我面前，我顿时血脉偾张了，手捂着她柔软的身子，立刻来了感觉！

更多回答

刚扫了下paper，写个简单的解读，如有错误/遗漏欢迎评论区指出～

首先，在模型高度同质化的今天敢于往不太流行的架构上砸资源而且训练到效果不错是值得respect的，值得关注后续scale up的潜力，甚至其余的efficient transformer架构scale up后的效果也值得重新探索一下。

前面之所以用了efficient transformer而不是宣传里的RNN是因为这个架构我觉得其实还是更偏向transformer一点，按照论文里给的内容简单溯源拆解一下：

首先整体的架构上跟transformer一脉相承，每一层先做token间的mixing再做token-wise transformation，前两年比较火的MLP系列也是遵循这个思路。RWKV把对token间的mixing称为time mixing，从上图整体看下来就是linear attention的结构，先算KV再跟Q算结果：

\frac{\phi (q_i)\sum_j \phi (k_j) \odot v_j}{\phi (q_i)\sum_{j^\prime}\phi (k_{j^\prime})^T}

这样带来一个好处就是可以写成RNN的形式，非常适合自回归生成，比如上式的 \sum_j \phi (k_j) \odot v_j 和 \sum_{j^\prime}\phi (k_{j^\prime})^T 可以一直累加，避免了每一步都重新计算attention矩阵（具体的见https://arxiv.org/pdf/2006.16236.pdf）。往下翻，RWKV给出了具体的time mixing计算方式：

(11-13)就是attention里面的QKV projection，只不过投影前加了个窗口为2的卷积，(14-15)沿用了attention-free transformer的形式（https://arxiv.org/pdf/2105.14103.pdf），里面的相对位置编码w做了点调整。

接着是FFN部分，RWKV叫做channel mixing（沿用了MLP-Mixer的叫法），计算方式如下：

看起来还是先做一个窗口为2的卷积加一个非对称的GLU（https://arxiv.org/pdf/1612.08083v3.pdf），激活函数用了平方ReLU。

简单总结一下：

整体架构沿用了transformer及其后续MLP-Mixer系列的token-mixing & channel mixing结构
token-mixing可以简单理解为kernel_size=2的卷积+AFT变体，channel mixing可以简单理解为kernel_size=2的卷积+GLU变体（当然任何模型结构上的简单修改最终训练起来并不简单，这里仅方便理解
RNN主要体现在前面提到的linearized attention，使得可以写成适合自回归的RNN形式（前面大量出现的 \mu x_t+(1-\mu)x_{t-1} 更像是卷积，后面channel-mixing里面的结构可以理解是遗忘门，也可以理解是GLU，见仁见智，更重要的应该还是在于linearized attention
在具有速度和长文本优势下做到这个效果是很赞的，希望看到更多的ablation，比如这个kernel_size=2的卷积影响多大？平方ReLU相对于ReLU的影响多大？

抛砖引玉，欢迎作者来补充或纠错 @PENG Bo

1、写在前面，RWKV是一个不错的线性RNN模型；

2、RNN的优势是推理友好，线性RNN的优势还包括训练可并行，不过要注意的是RWKV的官方实现方式是CUDA实现的递归，也就是说RWKV并没有用到训练可并行这一点，所以单从训练速度来看，是不是线性的没太大区别（或者说模型足够大时，直接递归的并行效率已经足够了）；

3、看得出RWKV的作者认真做了不少事情，但他（在国内）的PR文风显然会让不少人不喜甚至反感（也可能只是我的问题）；

4、RWKV不能直接处理任意长序列，因为长度外推效果并不好，我猜测线性RNN的长度外推效果都可能欠佳，当然，长度外推问题在Attention中同样存在；

5、RNN是纯靠记忆来完成任务的，简单来说就是只会闭卷考试不会开卷考试（不会往前翻书），比如做阅读理解，如果先给材料再给问题，它是先把材料背下来，然后再回答问题，所以RWKV对prompt比较敏感，要把Task tokens放到最前面才比较好，也就是带着问题去阅读材料；

6、模型越大，RNN的优势会相对越不明显，因为模型越大，hidden_size也越大（远超出了要处理的序列长度），此时即便是Attention的效率也是近乎线性的，当然，我说的是相对不明显；如果是序列足够长呢？那么又回到第4、5点；

7、个人浅见，RNN、RWKV要进一步完善，就要想办法补上“翻书”能力，比较简单的方式就是补上若干层Attention，当然，这跟作者想要塑造的“RNN is all you need”的形象不符，但事实上，即便将RWKV套上NBCE来扩展Context长度，也相当于加入了一层Attention了。

谢邀@PetitLegumeChien

刚关注RWKV不到两周，论文就出来了，挺奇妙。

理解RWKV的两个关键点是：

Complexity
Sequential Decoding

首先从Linear Transformer讲起，然后再介绍RWKV paper中反复提到的AFT，最后再看RWKV。

NOTE：为了大家方便比较几篇paper的公式，文本统一了三篇paper中的符号，所有公式重写了，所以和原文对比时请注意。

1. 理解Linear Transformer

论文链接：Transformers are rnns: Fast autoregressive transformers with linear attention

Linear Transformer解决的问题是将Transformer中self-attention的计算复杂度由 O(N^2) 降低为 O(N) ，其中 N 是序列长度。这对加快Transformer整体的training和inference过程非常重要。

沿用论文中的符号，把Linear Transformer的过程拆解一下。

用符号 x \in \mathbb R^{N \times F} 表示一个长度为 N ，特征维度为 F 的序列。 x 可以看作是self-attention模块的输入。Transformer中self-attention的典型计算如下：

(1) V' = softmax(\frac{QK^T}{\sqrt D}) V

其中矩阵Q、K、V是由输入 x 经线性变化得到的query、key、value。如果用下标 i 来表示矩阵的第 i 行（如 Q_i 表示矩阵 Q 的第 i 行），那么可以将公式（1）中的计算用如下形式抽象出来：

(2) V_i' = \frac{\sum_{j=1}^{N} \mathrm {sim} (Q_i, K_j) V_j}{\sum_{j=1}^{N} \mathrm {sim} (Q_i, K_j)}

其中sim() 为抽象出的计算Query和Key相似度的函数。在Transformer中，sim()定义为：

(3) \mathrm {sim} (Q_i, K_j) = \mathrm {exp} \left( \frac{Q_iK_j^T}{\sqrt D} \right)

在这种抽象下，可以将sim()定义为任何我们希望的形式。上述定义过程中对sim()唯一的约束是它需要非负。Linear Transformer采用了kernel来定义公式（3）中的sim：

(4) \mathrm {sim} (Q_i, K_j) = \phi(Q_i) \phi(K_j)^T

其中 \phi 是一个特征映射函数，可根据情况自行设计。Linear Transformer使用的 \phi 定义为：

(5) \phi (x) = \mathrm {elu} (x) + 1

将公式（4）代入公式（2）可得：

(6) V_i' = \frac{\sum_{j=1}^{N} \phi(Q_i) \phi(K_j)^T V_j}{\sum_{j=1}^{N} \phi(Q_i) \phi(K_j)^T}

注意上式中求和项与 i 无关，因此可以把与 i 有关的项提到前面，整理后可得：

(7) V_i' = \frac{\phi(Q_i) \sum_{j=1}^{N}\phi(K_j)^T V_j}{\phi(Q_i) \sum_{j=1}^{N}\phi(K_j)^T}

Transformer的计算复杂度随序列长度N呈二次方增长： O(N^2) 。可以用for循环来理解这个二次方：attention的计算包含两层for循环，外层是对于每一个Query，我们需要计算它对应token的新表征；内层for循环是为了计算每一个Query对应的新表征，需要让该Query与每一个Key进行计算。所以外层是 for q in Queries，内层是 for k in Keys。Queries数量和Keys数量都是N，所以复杂度是 O(N^2) 。

再看Linear Transformer，它只有外层for q in Queries这个循环了。因为求和项的计算与 i 无关，所以所有的 Q_i 可以共享求和项的值。换言之，求和项的值可以只计算一次，然后存在内存中供所有 Q_i 去使用。所以Linear Transformer的计算复杂度是 O(N) 。

上述是Encoder，因为对于 Q_i ，没有限制它只能看左边（之前）的token。再来看Decoder，只需要把公式（2）中的N替换成当前token（第 i 个）：

(8) V_i' = \frac{\sum_{j=1}^{i} \mathrm {sim} (Q_i, K_j) V_j}{\sum_{j=1}^{i} \mathrm {sim} (Q_i, K_j)}

再将Linear Transformer中定义的sim函数代入，可得：

(9) V_i' = \frac{\phi(Q_i) \sum_{j=1}^{i}\phi(K_j)^T V_j}{\phi(Q_i) \sum_{j=1}^{i}\phi(K_j)^T}

最后引入以下两个新符号：

(10) S_i = \sum_{j=1}^{i}\phi(K_j)^T V_j

(11) Z_i = \sum_{j=1}^{i}\phi(K_j)^T

稍作变换，可以将 S_i 和 Z_i 写作递归形式：

(12) S_i = \sum_{j=1}^{i}\phi(K_j)^T V_j = \phi(K_i)^T V_i + \sum_{j=1}^{i-1}\phi(K_j)^T V_j = \phi(K_i)^T V_i + S_{i -1}

(13) Z_i = \sum_{j=1}^{i}\phi(K_j)^T = \phi(K_i)^T + \sum_{j=1}^{i-1}\phi(K_j)^T= \phi(K_i)^T + Z_{i -1}

因此，在inference阶段，当需要计算第i+1时刻的输出时，Linear Transformer可以复用之前的状态 S_{i-1} 和 Z_{i-1} ，再额外加上一个与当前时刻相关的计算量即可。而Transformer在计算第i+1时刻的输出时，它在第i个时刻的所有计算都无法被i+1时刻所复用。因此，Linear Transformer更加高效。

总结一下：

Linear Transformer的计算复杂度为 O(N) （不考虑embedding的维度的情况下）
如公式（12）和（13）所示，因为 S_i 可由 S_{i-1} 计算得到（ Z_i 同理），所以它可实现Sequential Decoding（先算 S_1 ，由 S_1 算 S_2 ，以此类推）。

能Sequential Decoding是让这类Transformer看起来像RNN的核心原因。

2. 理解Attention Free Transformer (AFT)

论文链接：Attention Free Transformer (AFT)

这里直接列出AFT的Decoder形式：

(14) V_i' = \sigma (Q_i) \odot \frac{\sum_{j=1}^i exp(K_j + w_{i,j}) \odot V_j}{\sum_{j=1}^i exp(K_j + w_{i,j})}

其中 \sigma 是sigmoid函数； \odot 是逐元素相乘（element-wise product）； w_{i,j} 是待训练的参数。图1是示意图，其实画的并不算特别直观，要多看几次。核心是：1）按行计算；2）vector + scalar 等于vector中每个元素加scalar ；3）vector1除以vector2 等于逐元素相除。

AFT采用的形式和上面的Linear Transformer不一样。首先是attention score，Linear Transformer仍然是同Transformer一样，为每一个Value赋予一个weight。而AFT会为每个dimension赋予weight。换言之，在Linear Transformer中，同一个Value中不同dimension的weight是一致的；而AFT同一Value中不同dimension的weight不同。

此外，attention score的计算也变得格外简单，用K去加一个可训练的bias（bias与位置pair对一一对应）。Q的用法很像一个gate。

可以很容易仿照公式（12）和（13）把AFT也写成递归形式，这样容易看出，AFT也可以像Linear Transformer，在inference阶段复用前面时刻的计算结果，从而相比于Transformer变得更加高效。

总结一下：

AFT的计算复杂度为 O(N^2) ，与Transformer一样。这是因为公式（14）的求和项中与 i 相关。
AFT可以实现Sequential Decoding，因为公式（14）也可以写成递归形式。

3. RWKV

RWKV的目的是：

改造AFT，让其复杂度为 O(N)
保留AFT简单的“attention”形式
保留AFT的Sequential Decoding

对着paper中的这张图看即可：

首先看time-mixing block。time-mixing的目的是“global interaction”，对应于Transformer中的self-attention。其中使用到的R、K、V对应于AFT（或Transformer）中的Q、K、V。也就是说，K、V的含义可以强行看作一致，把R当做Q来处理就行。

只是RKV的计算方法有点变化：

(15) R_i = W_r \cdot (\mu_r x_t + (1- \mu_r) x_{t-1})

(16) K_i = W_k \cdot (\mu_k x_t + (1- \mu_k) x_{t-1})

(17) V_i = W_v \cdot (\mu_v x_t + (1- \mu_v) x_{t-1})

R、K、V的计算和Transformer的区别是，作为计算RKV（QKV）的输入的x不再是当前token的embedding，而是当前token与上一个token embedding的加权和。

然后是最重要的"attention"用了如下方法计算：

(18) V_i'=\frac{\sum_{j=1}^{i-1}e^{ -(i-1-j)w+K_j} \odot V_j + e^{u+K_i}\odot V_i} {\sum_{j=1}^{i-1}e^{ -(i-1-j)w+K_j} + e^{u+K_i}}

需要拿着这个公式和AFT的公式（14）去仔细对比。容易发现，改动是两点：

原来的依靠绝对位置的bias w_{i,j} 没有了，改成了相对位置，并且只有一个参数 w 向量需要训练。
对当前位置单独处理，增加了参数 u 。

公式（18）应该是经过比较精密地设计才弄出来的。它最大的特点是，也可以写成递归形式（参照原文公式19-22，不搬运了），这就让RWKV兼顾了Linear Transformer的 O(N) 以及AFT的简洁。

time-mixing block的最终输出：

(19) O_i=W_0 \cdot (\sigma(R_i) \odot V_i')

channel-mixing block根据time-mixing block的输出重新使用公式（16）、（17）去计算了一组新的R和K。然后再计算最终输出如下：

(20) O_i= \sigma(R_i) \odot (W_v \cdot max(K_i, 0)^2)

RWKV的核心就到这，其它内容都是在讲故事：一个关于RNN的故事。

4. 如何评价RWKV

回到正题。

评价一：凡是能让idea work起来的工作，都值得尊敬和钦佩。深度学习中，只要是以马后炮的心态来看待别人工作，都会觉得简单。所以talk is cheap，但作者们做到了show us the code.

评价二：从知道RWKV到看相关paper，时间太短，我比较好奇公式（18）是怎么设计出来的。这个公式有点丑，有没有可能让它稍微优雅点......

评价三：第一次看到RWKV的文章，下面一个评论说，叫“KTV”更容易记住。讲真，如果叫KTV，明天微博、朋友圈都会被连Transformer还没搞明白的人占领。值得考虑......

评价四：希望大家多支持一下这类工作，不易，不易，不易。

评价五：最近会尝试在手机上跑一下，有结果了给大家分享。

目前有哪些嵌入式 GUI？

蓁蓁的文章 4 赞同

PENG Bo 人工智能话题下的优秀答主 · Accepted Answer

更新：下面是非常旧的回答了。

目前最新的GUI，可以在Win Linux Mac运行：https://github.com/josStorer/RWKV-Runner/releases

目前新的模型：v5 world：BlinkDL/rwkv-5-world at main

和 v4 world：BlinkDL/rwkv-4-world at main

===========

！！！下面是非常旧的回答！！！

感谢关注，下面是RWKV的在线体验网址（在线是单轮。多轮可以自己部署，效果也很好）：

问答，英文14B Raven：ChatRWKV - a Hugging Face Space by BlinkDL

问答，英文7B Raven：Raven RWKV 7B - a Hugging Face Space by BlinkDL

问答，中文7B Raven：https://www.codewithgpu.com/i/app/BlinkDL/ChatRWKV/RWKV-4-Raven-7B

中文请用中文模型，英文请用英文模型。目前英文模型强很多，因为目前中文模型是从英文模型+少量中文语料微调的。

正在炼支持100种全球语言的World基底模型：BlinkDL/rwkv-4-world · Hugging Face（这个模型很强，例如现在发布的World 7B只炼了52%就很强）。

Instruction填命令或问题，Input填背景参考资料（如果没有就留空），不要填反了。

例如，用中文7B Raven模型做小说扩写，Instruction填“请扩写：林凡和龙傲天大战”之类。Input留空，或者填“关键词：XX，XX”之类（这个没训练过，但似乎有用）。
例如，做文本摘要，在Instruction填指令，在Input填需要摘要的文本。

解码参数非常重要。模型的原始状态是 topp 1，temp 1，penalty 0，此时它是一个“狂躁病患者”。

降低topp：给模型喂“镇静剂”，越低就越冷静、机械、准确、单调、无趣、重复：

创意回答和写作，建议topp 0.5~0.7。
机械的问答和摘要和翻译等等，建议topp 0~0.5，甚至 0~0.3。
很机械的回答，例如回答“是/否”、ABCD、1234之类，建议topp 0。

增加temp：给模型“喝酒”。它可以在topp低时，增加文采和趣味，减少重复：

若topp >= 0.7，建议temp 1。
若topp < 0.7，而且追求趣味，可以增加temp给模型喝酒（喝太多会胡言乱语）。如果追求准确，就保持temp 1。
如果topp 0.5，建议temp 1~1.5。
如果topp 0.3，建议temp 1~1.7。
如果topp <= 0.2，建议temp 1~2。

推荐的写小说设置：

topp 0.5 temp 1.2 或 topp 0.4 temp 1.5 或 topp 0.3 temp 1.7 或 topp 0.2 temp 2。自己看喜欢哪种。

增加penalty：让模型额外避免生成已经生成过的字。建议先设为0.2~0.4。如果你认为生成的内容有重复，而且调topp和temp仍然不满意，可以调整penalty。注意，如果设置过高，会让模型无法使用正常字，例如无法使用正常标点，或者直接乱码。

如果topp 0.7，建议penalty 0~0.3。
如果topp 0.5，建议penalty 0~0.5。
如果topp 0.3，建议penalty 0~0.7。
如果topp <= 0.2，建议penalty 0~1。

RWKV微调教程：

英文14B的效果例子，输入公式（TeX），输出代码：

中文小说续写，均衡文风：ModelScope 魔搭社区

中文小说续写，小白文风：ModelScope 魔搭社区

中文小说续写，专业文风：ModelScope 魔搭社区

本地部署，懒人请用懒人包：

懒人包1（推荐）：1466：RWKV-Runner发布并开源，可商用的大语言模型，一键启动管理，2-32G显存适配，API兼容，一切前端皆可用

懒人包2：ChatRWKV教程与工具

会动手的用户，用我写的 ChatRWKV，因为目前大多数第三方实现仍有 bug，例如 HF rwkv 仍有 bug。使用请设置正确 strategy，并编译 CUDA 算子，这对于运行速度极其重要。

教程：PENG Bo：发布几个RWKV的Chat模型（包括英文和中文）7B/14B欢迎大家玩

RWKV pip package：rwkv

请务必用最新和正确的模型。例如Raven是v某某，某某越大越新。注意语言比例需要正确，例如中文模型是Chn49%。

后续欢迎大家来玩的：

可解释性，可视化。由于RWKV作为RNN有明确的固定大小state，可以做许多transformer做不到的事情。例如，我们可以直接分析理解和操纵RWKV的状态，还可以直接做高效P-tuning。

2. 多模态。state是优质的嵌入（注意区分 x a b p）。

3. 量化，稀疏，端侧高速运行。

4. 插件，向量数据库，检索增强，AutoGPT等等。

另外大家记得看论文附录，例如这些都在附录：

39 个回答

RWKV微调教程：

最后，我发现某些人真的 low 穿地心。刚才知乎推荐一条答案，竟然有人说我“为了寻求支持出让两个一作位置”。

我告诉你，是我告诉 EleutherAI ，我希望支持 EleutherAI 这个开源机构，所以我希望给他们多一些 credit，正如我将论文的写作开放给整个社区。

这个世界需要更多 Open AI 践行者，需要我们大家一起努力。

目前有哪些嵌入式 GUI？

Linux_GUI加速(1)_GUI系统概述

1. 理解Linear Transformer

2. 理解Attention Free Transformer (AFT)

3. RWKV

4. 如何评价RWKV

中国历史上谁最像穿越者？

你在学校里做了什么事全校皆知？

在清华北大或者其他顶尖 985 院校，到底存在不存在智商被碾压这回事？

如何评价黄磊的智商与情商？

女生疯狂追女明星属于什么心理啊？

五官好看，但是人丑，是种怎样的体验？

为什么王俊凯会比吴磊，刘昊然这些人粉丝多？

怎样面对绝情的前女友？

有哪些人可以称得上是真正的英雄？