彩娱乐 陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减
陈丹琦团队又带着他们的降本大法来了——彩娱乐
数据砍掉三分之一,大模子性能却完全不减。
他们引入了元数据,加速了大模子预探员的同期,也不增多单独的计较支出。
在不同模子范畴(600M - 8B)和探员数据开始的情况下,均能达成性能方面的提高。
固然之前元数据道过好多,但一作高天宇暗示,他们是第一个展示它如何影响卑劣性能,以及具体如何实践以确保推理中具备大批实用性。
来望望具体是如何作念到的吧?
元数据加速大模子预探员
道话模子预探员语料库中存在撰述风、领域和质料水平的雄壮各异,这关于开导通用模子才智至关进犯,然而高效地学习和部署这些异构数据源中每一种数据源的正确步履却极具挑战性。
在这一布景下,他们建议了一种新的预探员步调,称为元数据改动然后冷却(MeCo,Metadata Conditioning then Cooldown)。
具体包括两个探员阶段。
在全球科技的版图中,半导体产业是一颗耀眼的明珠,其重要性不言而喻。而光刻机,作为半导体制造的关键设备,犹如芯片制造的“魔法画笔”,其技术水平直接决定了芯片的精细程度和性能表现。我国成功申请7纳米光刻机专利这一重大成果,恰似一道划破夜空的曙光,为我国半导体产业的崛起注入了强大动力,标志着我国在高端光刻机技术领域取得了具有里程碑意义的突破。
预探员阶段(90%)彩娱乐,将元数据(如文档 URL 的弥散域名c)与文档拼接(如 “URL: en.wikipedia.org [document]”)进行探员。
(举例,要是文档的 URL 是 https://en.wikipedia.org/wiki/Bill Gates,那么文档 URL 的弥散域名c便是 en.wikipedia.org;这种 URL 信息在许多预探员语料库中齐很容易赢得,它们大多来自 CommonCrawl2(一个通达的网罗握取数据存储库))
当使用其他类型的元数据时,URL 应替换为相应的元数据称号。
他们只计较文档标志的交叉熵失掉,而不磋议模板或元数据中的标志,因为在初步实验中发现,对这些标志进行探员会略略挫伤卑劣性能。
终末10%的探员面目为冷却阶段,使用模范数据探员,罗致元数据改动阶段的学习率和优化器现象,即从上一阶段的终末一个查验点启动化学习率、模子参数和优化器现象,并链接凭证筹画颐养学习率:
1)禁用跨文档Attention,这既加速了探员速率(1.6B 模子的探员速率提高了 25%),彩娱乐官网又提高了卑劣性能。
2)当将多个文档打包成一个序列时,咱们确保每个序列从一个新文档脱手,而不是从一个文档的中间脱手—当将文档打包成固定长度时,这可能会导致一些数据被丢弃,但事实诠释这成心于提凹凸游性能。
本次实验使用了Llama Transformer架构和Llama-3 tokenizer。咱们使用四种不同的模子大小进行了实验:600M、1.6B、3B 和 8B,以及干系优化开导。
截至透露,MeCo 的推崇彰着优于模范预探员,其平均性能与 240B 标志的基线荒谬,而使用的数据却减少了 33%。
终末回来,他们主要完成了这三项孝顺。
1、 MeCo 大幅加速了预探员。
实考据明,MeCo 使一个 1.6B 的模子在少用 33% 的探员数据的情况下,达到了与模范预探员模子沟通的平均卑劣性能。在不同的模子范畴(600M、1.6B、3B 和 8B)和数据源(C4、RefinedWeb 和 DCLM)下,MeCo 透泄露一致的收益。
2、MeCo 开启了指引道话模子的新步调。
举例,使用factquizmaster.com(非信得过URL)不错提高学问性任务的性能(举例,在零次学问性问题解答中弥散提高了6%),而使用wikipedia.org与模范的无条目推理比拟,毒性生成的可能性裁减了数倍。
3、消解了 MeCo 的筹办聘任,并诠释 MeCo 与不同类型的元数据兼容。
使用散列 URL 和模子生成的主题进行的分析标明,元数据的主要作用是按开始将文档归类。因此,即使莫得URL,MeCo 也能灵验地整合不同类型的元数据,包括更精采的选项。
陈丹琦团队
论文作家来自普林斯顿NLP小组(附庸于普林斯顿道话与智能PLI)博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及陈丹琦。
一作高天宇,本科毕业于清华,是2019年清华特奖得主,当今普林斯顿五年龄博士生,瞻望本年毕业,链接在学界搞征询,征询领域包括当然道话处罚和机器学习的交叉领域,荒谬蔼然大道话模子(LLM),包括构建运用模范、提高LLM功能和成果。
Luxi He当今是普林斯顿计较机专科二年龄博士生,当今征询要点是连气儿道话模子并改善其一致性和安全性,硕士毕业于哈佛大学。
YiHe Dong当今在谷歌从事机器学习征询和工程职责,专注于结构化数据的暗示学习、自动化特征工程和多模态暗示学习,本科毕业于普林斯顿。
— 完 —彩娱乐