新闻资讯

<<返回上一页

AI Scientist爆火背后的技术详解以及优缺点分析

发布时间:2024-11-15 00:58:06点击:

今天分享一篇最近比较热门的日本创业公司Sakana AI的一篇文章,标题为《The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery》。文章提出了一种名为“AI Scientist”的框架,旨在实现端到端完全自动化的科学发现,完成从Idea构建,实验跑取,文章撰写的完全自动化。验证了AI自动化探索新问题,解决新问题,甚至撰写Paper的可行性。同时还提出了一个能与人类评委水准接近的Review Agent,能够给出高水准的评审意见。

总体来说,其还是一个多agent系统,利用了reflection机制迭代优化效果,同时也结合Semantic Scholar等工具验证创新性,利用Aider工具来更新代码和Paper,来执行相关实验。同时也要看到其只是搭了一个基础的Baseline通道,如何提升Idea生成的深度以及多样性,如何让LLM能实现更复杂,更有挑战性的Idea,如何降低Review Agent的False Positive Rate(FPR)都值得进一步探索。

本文将对其背后的技术,优缺点进行详细的分析~

一、概述

1. Motivation

文章介绍了“AI科学家”框架,该框架包括三个主要阶段:

1.想法生成:AI科学家首先“头脑风暴”出一系列新颖的研究方向,然后在此基础上进行创新性迭代优化,最后筛选创新性较高的idea。

2.实验迭代:根据想法和模板,AI科学家首先执行提出的实验plan,然后根据实验结果,迭代优化实验,最后更新plot代码,可视化其结果以供后续撰写,代码通过AIder工具来更新。

3.论文撰写:AI科学家使用LaTeX撰写完整的科学论文,描述其进展。

•输入:总体就两个输入,Baseline Code,以及论文Latex模板,加上init paper的一些信息。

• Baseline code:a starting code template that reproduces a lightweight baseline training run from a popular model or benchmark. For example, this could be code thattrains a small transformeron the works of Shakespeare (Karpathy, 2022), a classic proof-of-concept training run from natural language processing that completes within a few minutes

• Latex模版:LaTeX folder that containsstyle files and section headers, along with simple plotting code.

•输出:完整的Paper

1 Idea generate过程

•输入:code template

•输出:some ideas

•代码:​ ​​ ​

• generate_ideas:idea生成

• generate_next_idea:在seed的基础上继续生成新的idea

• search_for_papers:调用api search paper

• check_idea_novelty:检查并优化创新性

1.1 Idea Generation Prompt

•优点:对diversity做了优化和限制,引入了COT机制。

•缺点:idea全靠LLM内部信息想出来,思考的知识有限,更新也不及时,不太能及时follow最新知识,不过内部知识能做到什么粒度其实还不太确定,另外内部知识其实是缺乏新知识的,这对科学研究非常致命。

1.2 Idea Novelty Prompt

•缺点:还是创新全部源于LLM内部知识。

2 Experiments过程

•输入:idea + template

•输出:experiment result + experiment figures

•实现方式:通过Aider更新代码,然后执行命令行跑取模型结果。

• Aider平台,可以通过命令更新代码:•

2.1 Experiment Running Aider Prompt

•特点:先也会有一个plan,然后分别实现experiments

•缺点:没具体讲如何实现Experiment的,Aider看着是个平台,可能可以直接用,但是改代码很容易出错,稳定性存疑。

2.2 Plotting Aider Prompt

•特点:生成plot,还有description,后续用于添加到论文中。

3 Paper Writing流程

•输入:Latex模版 + Experiments recorded notes + plots,Latex模板图如下,也是用Aider工具来修改•

•输出:paper

3.1 Paper Writing Aider Prompt

•特点:提供每个section的建议+latex的template+plan

•缺点:Aider是个啥,感觉writing比较有用的样子。

4 Reviewer Agent流程

•输入:PDF manuscript

•输出:Paper Review Result

•优点:参考了neurips ReviewerGuidelines,同时引入reflection,few-shot来提升效果。

4.1 Paper Review Prompt

•特点:引入neurips guideline和few_shot_example。

4.2 Paper Review Reflection Prompt

•特点:经过多轮迭代 + COT思考

4.3 Paper Review Ensembling Prompt

•特点:还有个汇总的,优点self-consistant的感觉

5 反思和迭代次数

3. Coclusion

文章搭建了一个AI Scientist,通过三个子任务验证了其可行性:扩散模型、Transformer和Groking。并且每种想法的实现和开发成本不到15美元。表明了该框架在Research研究和显著加速科学进步方面的潜力。

•搭建了一个完整的科研链路Agent:idea -> Experiments -> Paper,还真work了。

•附带送了一个接近人类水平的Paper Review Agent,效果也还不错。

4. Limitation

•生成的Idea经常非常相似,甚至不同模型,不同run都会有很类似的idea。

• Aider实现ideas有困难,GPT-4o写Latext常不能编译,有些idea实现challenging比较大。

• plot的图像也可能有问题,而且还不止是vision,可能看不出效果。

• Latext的cite和reference可能有问题。

• LLM数学能力不太好,对metric不敏感。

•幻觉。

二、详细内容

1 LLM Paper Review水平在ICLR2022数据集上已经接近人类水平

•特点:精度和人类比较接近(balanced 0.65 vs 0.66),False Negative Rate(FNR)更低,False Positive Rate(FPR)偏高,说明也有打分偏高的情况。

2 Reflexion和one-shot能提升Reviewing效果

•结论:从0.66提升到0.70,看着还不错。Ensemble后精度没有提升,但是variance有降低。

3 Diffusion Modeling优化效果

•**结论1:Sonnet3.5看着比GPT-4o好很多啊,而且还更便宜,完成Paper率居然接近80%**,还是很厉害。

•结论2:DeepSeek Coder是性价比之王。

•其他:DIffusion Modeling感觉都是比较老的模型了,利用LLM生成的idea可能都是训练过的了,可能并不能代表真正的创新。

4 Language Modeling优化效果

•结论: 这次完成率只有40%了,这个差异好大,跟猜测的一样,coding可能非常不稳定,另外DeepSeek Coder确实厉害。

5 Grokking优化效果

•结论:不同paper,不同LLM基座的Noval Ideas居然都超过90%,但是Experiments的完成率差异非常大。​

本文转载自​​,作者:

免责声明:凡未注明来自本站的稿件和图片作品,系转载自其它网站,及网友投稿,转载目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如若涉及侵权违规可向站长举报 。