2024 年 8 月 21 日消息,天眼查知识产权信息显示,北京深势科技有限公司取得一项名为“一种对大语言模型微调数据集进行优化的处理方法和装置“,授权公告号 CN118260429B ,申请日期为 2024 年 5 月 。
专利摘要显示,本发明实施例涉及一种对大语言模型微调数据集进行优化的处理方法和装置,所述方法包括:初始化第一样本库;基于第一样本评分模型对第一样本库的各样本记录的所有评分字段进行设置;基于第一样本标签模型对第一样本库的各样本记录的标签集字段进行设置;基于样本标签对第一样本库的所有样本记录进行聚类得到多个第一类标签记录簇;以预设的数据分布指标集为参考根据得到的所有第一类标签记录簇和第一样本库进行微调数据集构建得到对应的第一微调数据集。通过本发明可以提高微调数据集的数据质量。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com