在一篇题为“ToolLLM:促进大型语言模型掌握 16,464 个现实世界 API”的开创性论文中,来自知名机构的研究人员团队提出了一个革命性的框架,该框架利用大型语言模型 (LLM) 的力量来掌握超过 16,464 个现实世界RESTful API。 这项研究由清华大学、ModelBest Inc.、中国人民大学、耶鲁大学、腾讯公司和知乎公司的研究人员进行,解决了现有法学硕士在执行更高级别任务方面的局限性,特别是在学习使用外部知识方面。 API 等工具。
法学硕士使用工具的挑战
虽然法学硕士在各种现实场景中得到了广泛的应用,但它们在涉及使用外部工具(例如 API)的任务中的表现却受到限制。 之前解决这个问题的努力并没有成功,因为他们很难充分激发法学硕士的工具使用能力。 此外,他们还面临一些限制,包括 API 范围狭窄、场景有限以及规划和推理不足。
为了克服这些挑战,研究团队推出了 ToolLLM,这是一个突破性的通用工具使用框架,展示了掌握 16,464 个现实世界 RESTful API 的令人印象深刻的能力。 研究人员首先创建一个名为 ToolBench 的高质量指令调优数据集。 数据集建设涉及三个关键阶段,确保方法全面有效。
第一阶段:API收集
该团队从 RapidAPI 收集了包含 16,464 个 RESTful API 的庞大数据集,涵盖 49 个类别,涵盖社交媒体、电子商务和天气等不同领域。 广泛的 API 确保了框架在处理各种实际任务时的多功能性。
第 2 阶段:指令生成
对于指令生成,研究人员从收集的数据集中采样 API,并提示 ChatGPT(一种广泛使用的 LLM)为单工具和多工具场景生成不同的指令。 这一步确保了ToolLLM可以处理涉及多个API的复杂任务,增强其实际适用性。
第 3 阶段:解决方案路径注释
在此阶段,团队注释对生成的指令的高质量响应,确保框架接收准确可靠的训练数据。 高质量的响应对于提高 ToolLLM 的性能和准确性至关重要。
使用 DFSDT 促进规划和推理
为了使数据收集更加高效并增强法学硕士的规划和推理能力,研究人员引入了一种新颖的基于深度优先搜索的决策树(DFSDT)。 这种创新方法显着提高了 ToolLLM 处理复杂场景和寻找最佳解决方案的能力。
微调 LLM 并构建 ToolEval
研究人员继续使用 ToolBench 数据集对 LLM 变体 LLaMA 进行微调。 结果是 ToolLLaMA,一个强大的工具使用模型,随时可以展示其功能。 此外,该团队还开发了一个自动评估器 ToolEval 来评估 ToolLLaMA 的性能。 微调模型和自动评估器的结合确保了对框架能力的可靠和高效的评估。
令人印象深刻的表现和对未来研究的承诺
通过严格的实验和评估,研究团队观察到 ToolLLaMA 优于传统的工具使用方法,展示了其在法学硕士中的卓越能力。 此外,该框架展示了其掌握以前未见过的 API 的潜力,进一步扩展了其实用性。
法学硕士指令调整和工具使用的新领域
ToolLLM 的成功开发为大型语言模型的指令调优和工具使用领域开辟了令人兴奋的可能性。 研究人员相信,他们的工作将激发这一交叉领域的进一步研究,从而培养出更复杂、更有能力的法学硕士。
访问 ToolLLM 和未来影响
研究人员已在 GitHub 上公开提供 ToolLLM 的代码、训练模型和演示。 此举确保了可访问性并鼓励在推进该领域的合作。 随着 ToolLLM 继续塑造法学硕士和现实世界应用的未来,其融入各个行业和部门的可能性似乎是无限的。
研究团队关于 ToolLLM 的论文代表了在充分利用大型语言模型的潜力来掌握现实世界 API 方面的重大飞跃。 通过克服现有限制并引入全面的工具使用框架,ToolLLM 展示了法学硕士在处理各种任务方面的令人印象深刻的能力。 他们在 GitHub 上的工作及其对未来研究的有希望的影响为法学硕士指令调整和工具使用领域的进一步发展铺平了道路。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com