Andrej Karpathy:神奇大模型不存在的,只是对人类
作者:[db:作者] 发布时间:2024-12-04 21:09
兴许是时间寻觅新的方式了?年夜模子答复人类的对话内容,毕竟有几多「智能」身分在外面?本周五,著名 AI 范畴学者,OpenAI 开创成员、特斯拉前 AI 高等总监 Andrej Karpathy 宣布观念:「人们对『向人工智能讯问某件事』的说明过于夸大」,激发网友热议。Karpathy 称:人工智能基础上是经由过程模拟人工标注数据来停止练习的言语模子。以是不要将对话视为「讯问人工智能」的奥秘主义,而应将其更多地视为「讯问互联网上的均匀数据标注者」。比方,当你问「阿姆斯特丹十年夜景点」之类的成绩时,一些受雇的数据标签员可能在某个时间看到了相似的成绩,应用谷歌等软件研讨了 20 分钟,列出了 10 个景点的列表,而后字面意思就酿成了准确谜底,练习人工智能给出该成绩的谜底。假如有成绩确实切地位不在微调练习会合,神经收集会依据从预练习阶段(互联网文档的言语建模)取得的常识来停止估量。当有网友批评称:「RLHF 能够发明超出人类的成果」,Karpathy 表现:「RLHF 依然是来自人类反应的 RL,以是我不会这么说」。Karpathy 以为:RLHF 将模子机能从 SFT 的「人工天生」级别晋升到「人工判断」级别。但这与其说是「准则上」,不如说是「实际上」,由于「判断」对一般人来说比「天生」更轻易(比方,断定这 5 首对于 X 的诗中哪一首最好,而不是写一首对于 X 的诗)。别的,还能够从群体聪明效应中取得独自的晋升,即 LLM 的机能不是到达人类程度,而是到达人类团体程度。因而,准则上,对 RLHF,所能冀望的最好成果就是到达专家程度。以是从某种意思下去说,这算是「超人」,但 Karpathy 以为:要依照人们默许的方法成为真正的「超人」,要去 RL 而不是 RLHF。实在,这已不是 Andrej Karpathy 第一次批评 RLHF 了。作为前 OpenAI 主要成员,他在往年 8 月就跟 Yann LeCun 等人一同质疑过由 GPT 系列模子发挥光年夜的 RLHF 强化进修的意思。他事先应用 DeepMind 的 AlphaGo 作为例子。假如咱们事先用 RLHF 的方式练习 AlphaGo 会是什么样子?可能会既无奈形成无效的嘉奖,又会构成偏离畸形轨道的优化,那就势必无奈发明出「战胜人类天下冠军」的汗青了。出于同样的起因,Karpathy 对 RLHF 居然实用于 LLM 觉得「有点惊奇」。由于咱们为 LLM 练习的 RM(Reward Model)只是以完整雷同的方法停止直觉检讨。它会对人类标注者可能爱好的断定给出高分,它不是准确处理成绩的「现实」目的,而是人类以为好的替换目的。其次,你乃至不克不及运转 RLHF 太长时光,由于你的模子很快就会学会顺应游戏嘉奖模子,再推理出一些不畸形的 Token。这在人类看来很荒诞,但出于某种起因 RM 会以为看起来很棒。独一无二,往年 9 月,一篇来自 VRAIN、剑桥年夜学研讨职员的 Nature 论文对 o1-preview 等模子停止了评测,发明良多对人类来说简略的义务,年夜模子却基本无奈处理。而在一些庞杂的义务上,LLM 也基本不晓得「躲避」,而是会装腔作势的思考一通之后,给出一个过错的谜底。固然跟着时光的推移,年夜模子的参数体量越来越年夜,练习的数据也越来越多,机能也一直晋升,但从基本机制的角度来说,它们仿佛并不靠谱。假如 RLHF 不论用,还能有什么样的嘉奖机制能辅助年夜模子「正确遵守指令」呢?往年 7 月,OpenAI 就颁布了一种教诲 AI 模子遵照保险政策的新方式,称为基于规矩的嘉奖(Rule-Based Rewards,RBR)。RBR 不只限于保险练习,它们能够顺应种种义务,此中明白的规矩能够界说所需的行动,比方为特定利用顺序定制模子呼应的特性或格局。这或者为年夜模子下一步机能冲破供给了新的思绪。参考内容:https://x.com/karpathy/status/1821277264996352246© THE END 转载请接洽本大众号取得受权投稿或追求报道:[email protected]]article_adlist-->   申明:新浪网独家稿件,未经受权制止转载。 -->
电话
020-66888888