陈丹琦团队又带着他们的降本大法来了——CYL588.VIP
数据砍掉三分之一,大模子性能却完全不减。
他们引入了元数据,加速了大模子预教师的同期,也不增多单独的贪图支拨。
在不同模子范畴(600M - 8B)和教师数据着手的情况下,均能已毕性能方面的擢升。
诚然之前元数据道过好多,但一作高天宇暗意,他们是第一个展示它若何影响卑劣性能,以及具体若何实验以确保推理中具备无数实用性。
来望望具体是若何作念到的吧?
元数据加速大模子预教师
话语模子预教师语料库中存在撰述风、边界和质地水平的弘大相反,这关于开发通用模子智商至关伏击,然而高效地学习和部署这些异构数据源中每一种数据源的正确活动却极具挑战性。
全书分为十个章节,每章“独立开课”,分别围绕概念、源流、危机、重构、形态、融合、产业、引爆、治理和未来十大主题。
在这一布景下,他们建议了一种新的预教师要领,称为元数据编削然后冷却(MeCo,Metadata Conditioning then Cooldown)。
具体包括两个教师阶段。
预教师阶段(90%)CYL588.VIP,将元数据(如文档 URL 的十足域名c)与文档拼接(如 “URL: en.wikipedia.org [document]”)进行教师。
(举例,淌若文档的 URL 是 https://en.wikipedia.org/wiki/Bill Gates,那么文档 URL 的十足域名c即是 en.wikipedia.org;这种 URL 信息在许多预教师语料库中皆很容易得到,它们大多来自 CommonCrawl2(一个洞开的收集持取数据存储库))
当使用其他类型的元数据时,URL 应替换为相应的元数据称号。
他们只贪图文档鲜艳的交叉熵亏欠,而不研讨模板或元数据中的鲜艳,因为在初步实验中发现,对这些鲜艳进行教师会稍许挫伤卑劣性能。
临了10%的教师神志为冷却阶段,使用模范数据教师,摄取元数据编削阶段的学习率和优化器现象,即从上一阶段的临了一个检查点运行化学习率、模子参数和优化器现象,并无间凭据贪图和谐学习率:
1)禁用跨文档Attention,这既加速了教师速率(1.6B 模子的教师速率提高了 25%),又提高了卑劣性能。
2)当将多个文档打包成一个序列时,咱们确保每个序列从一个新文档滥觞,而不是从一个文档的中间滥觞—当将文档打包成固定长度时,彩娱乐招商加盟这可能会导致一些数据被丢弃,但事实诠释这有意于提落魄游性能。
本次实验使用了Llama Transformer架构和Llama-3 tokenizer。咱们使用四种不同的模子大小进行了实验:600M、1.6B、3B 和 8B,以及关系优化开荒。
限度分解,MeCo 的施展明白优于模范预教师,其平均性能与 240B 鲜艳的基线十分,而使用的数据却减少了 33%。
临了记忆,他们主要完成了这三项孝敬。
1、 MeCo 大幅加速了预教师。
实考诠释,MeCo 使一个 1.6B 的模子在少用 33% 的教师数据的情况下,达到了与模范预教师模子疏导的平均卑劣性能。在不同的模子范畴(600M、1.6B、3B 和 8B)和数据源(C4、RefinedWeb 和 DCLM)下,MeCo 分解出一致的收益。
2、MeCo 开启了联结话语模子的新要领。
举例,使用factquizmaster.com(非实在URL)不错提高学问性任务的性能(举例,在零次学问性问题解答中十足提高了6%),而使用wikipedia.org与模范的无条款推理比拟,毒性生成的可能性裁汰了数倍。
3、消解了 MeCo 的想象采取,并诠释 MeCo 与不同类型的元数据兼容。
使用散列 URL 和模子生成的主题进行的分析标明,元数据的主要作用是按着手将文档归类。因此,即使莫得URL,MeCo 也能有用地整合不同类型的元数据,包括更细巧的选项。
陈丹琦团队
论文作家来自普林斯顿NLP小组(附庸于普林斯顿话语与智能PLI)博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及陈丹琦。
一作高天宇,本科毕业于清华,是2019年清华特奖得主,当今普林斯顿五年龄博士生,瞻望本年毕业,无间在学界搞连接,连接边界包括当然话语贬责和机器学习的交叉边界,杰出关心妄语语模子(LLM),包括构建期骗圭表、提高LLM功能和恶果。
Luxi He当今是普林斯顿贪图机专科二年龄博士生,当今连接要点是雄厚话语模子并改善其一致性和安全性,硕士毕业于哈佛大学。
YiHe Dong当今在谷歌从事机器学习连接和工程使命,专注于结构化数据的暗意学习、自动化特征工程和多模态暗意学习,本科毕业于普林斯顿。
— 完 —CYL588.VIP