Replies: 3 comments 1 reply
-
|
更进一步思考,是不是可以改进现在的整体训练方案。具体说就是:
|
Beta Was this translation helpful? Give feedback.
-
|
目前state更像工作记忆 你可以看看目前的 rwkv state tuning |
Beta Was this translation helpful? Give feedback.
-
|
非常感谢 这篇论文也提供了两个思路:1. 使用RAG来辅助增强记忆 2. 使用一层transform attention来增加记忆。 |
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
本周看到RWKV模型,十分惊艳。非常认同RWKV的设计思路。同时有了一个想法不知道是否可行?“有没有可能将RWKV发展为“智能”和“知识”分离(相对与现在模式数据既用作推理也存储信息而言)的模型?” 具体说就是把目前的RWKV的“模型”看做是AI的“智能",主要表示学习到的方法。把state看成是AI的”知识“主要表示学习到的信息。在使用的过程中”智能“部分是不会修改的,但是知识可以留存。这样我们就可以得到一个“存算一体”的模型。
如果可以做到这一点,那么所谓的“微调”就可以是简单的使用而已。而且也可以做到每个人都可以拥有独一无二的RWKV模型。因为用户的使用就是模型学习到的知识的一部分。
Beta Was this translation helpful? Give feedback.
All reactions