陈丹琦团队又带着他们的降本大法来了——
数据砍掉三分之一,大模子性能却完全不减。
他们引入了元数据,加速了大模子预查考的同期,也不加多单独的猜度支出。
在不同模子规模(600M - 8B)和查考数据开头的情况下,均能结束性能方面的耕种。
天然之前元数外传念过好多,但一作高天宇暗意,他们是第一个展示它如何影响卑劣性能,以及具体如何实际以确保推理中具备多数实用性。
乌克兰战俘协调指挥部表示,有503名阵亡乌军士兵遗体被运回乌克兰。(总台记者 王斌)
这就有些让人难以理解了,这些药治疗的病症明明都差不多,为什么西药可以那么便宜,反倒是有中药成分的药,贵上了几十倍?
来望望具体是如何作念到的吧?
元数据加速大模子预查考
言语模子预查考语料库中存在着述风、领域和质地水平的无边互异,这关于开采通用模子才调至关紧要,然则高效地学习和部署这些异构数据源中每一种数据源的正确动作却极具挑战性。
在这一配景下,他们提议了一种新的预查考规范,称为元数据改动然后冷却(MeCo,Metadata Conditioning then Cooldown)。
具体包括两个查考阶段。
预查考阶段(90%),将元数据(如文档 URL 的统统域名c)与文档拼接(如 “URL: en.wikipedia.org [document]”)进行查考。
(举例,如若文档的 URL 是 https://en.wikipedia.org/wiki/Bill Gates,那么文档 URL 的统统域名c便是 en.wikipedia.org;这种 URL 信息在许多预查考语料库中皆很容易赢得,它们大多来自 CommonCrawl2(一个敞开的蚁辘集手取数据存储库))
当使用其他类型的元数据时,URL 应替换为相应的元数据称呼。
他们只猜度文档标记的交叉熵亏空,而不商酌模板或元数据中的标记,因为在初步实验中发现,对这些标记进行查考会稍许损伤卑劣性能。
临了10%的查考规范为冷却阶段,使用尺度数据查考,继承元数据改动阶段的学习率和优化器景况,即从上一阶段的临了一个查验点脱手化学习率、模子参数和优化器景况,并不绝凭证策画诊治学习率:
1)禁用跨文档Attention,这既加速了查考速率(1.6B 模子的查考速率提高了 25%),又提高了卑劣性能。
2)当将多个文档打包成一个序列时,咱们确保每个序列从一个新文档脱手,彩娱乐网址CYL588.VIP而不是从一个文档的中间脱手—当将文档打包成固定长度时,这可能会导致一些数据被丢弃,但事实诠释注解这故意于提上卑劣性能。
本次实验使用了Llama Transformer架构和Llama-3 tokenizer。咱们使用四种不同的模子大小进行了实验:600M、1.6B、3B 和 8B,以及相干优化确立。
收敛泄露,MeCo 的发扬澄澈优于尺度预查考,其平均性能与 240B 标记的基线颠倒,而使用的数据却减少了 33%。
临了转头,他们主要完成了这三项孝顺。
1、 MeCo 大幅加速了预查考。
实考据明,MeCo 使一个 1.6B 的模子在少用 33% 的查考数据的情况下,达到了与尺度预查考模子疏浚的平均卑劣性能。在不同的模子规模(600M、1.6B、3B 和 8B)和数据源(C4、RefinedWeb 和 DCLM)下,MeCo 泄表示一致的收益。
2、MeCo 开启了指引言语模子的新规范。
举例,使用factquizmaster.com(非真确URL)不错提高学问性任务的性能(举例,在零次学问性问题解答中统统提高了6%),而使用wikipedia.org与尺度的无条目推理比拟,毒性生成的可能性裁汰了数倍。
3、消解了 MeCo 的想象选择,并诠释注解 MeCo 与不同类型的元数据兼容。
使用散列 URL 和模子生成的主题进行的分析标明,元数据的主要作用是按开头将文档归类。因此,即使莫得URL,MeCo 也能灵验地整合不同类型的元数据,包括更细巧的选项。
陈丹琦团队
论文作家来自普林斯顿NLP小组(从属于普林斯顿言语与智能PLI)博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及陈丹琦。
一作高天宇,本科毕业于清华,是2019年清华特奖得主,现在普林斯顿五年事博士生,预测本年毕业,不绝在学界搞预计,预计领域包括天然言语措置和机器学习的交叉领域,终点温雅大言语模子(LLM),包括构建掌握模范、提高LLM功能和恶果。
Luxi He现在是普林斯顿猜度机专科二年事博士生,现在预计要点是领略言语模子并改善其一致性和安全性,硕士毕业于哈佛大学。
YiHe Dong现在在谷歌从事机器学习预计和工程使命,专注于结构化数据的暗意学习、自动化特征工程和多模态暗意学习,本科毕业于普林斯顿。
— 完 —彩娱乐app