彩娱乐注册CLY588.VIP 陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

陈丹琦团队又带着他们的降本大法来了——彩娱乐注册CLY588.VIP

数据砍掉三分之一,大模子性能却完全不减。

他们引入了元数据,加速了大模子预测验的同期,也不增多单独的打算支出。

在不同模子规模(600M - 8B)和测验数据起首的情况下,均能达成性能方面的升迁。

天然之前元数传说念过许多,但一作高天宇暗示,他们是第一个展示它若何影响下贱性能,以及具体若何实际以确保推理中具备多数实用性。

来望望具体是若何作念到的吧?

元数据加速大模子预测验

说话模子预测验语料库中存在着立场、规模和质料水平的宏大各异,这关于开拓通用模子能力至关膺惩,可是高效地学习和部署这些异构数据源中每一种数据源的正确行动却极具挑战性。

早前网传聊天记录显示,在一个名为“第五届博士生联合论坛 浙大—剑桥”的群聊中,一名学生表示,“我已经达到了毕业标准,如果因为老师的原因导致10年的(英国)签证被拒签,我将追究你的责任。”另一段聊天记录中有人则表示,“按照你的说法,我第一时间给(签证中心)打电话要求撤销签证,但被告知不同意撤签。”

我们来看看网友提供的信息。这是网传的杭州大礼。

在这一布景下,他们提倡了一种新的预测验要领,称为元数据转念然后冷却(MeCo,Metadata Conditioning then Cooldown)。

具体包括两个测验阶段。

预测验阶段(90%),将元数据(如文档 URL 的富余域名c)与文档拼接(如 “URL: en.wikipedia.org [document]”)进行测验。

(举例,如若文档的 URL 是 https://en.wikipedia.org/wiki/Bill Gates,那么文档 URL 的富余域名c即是 en.wikipedia.org;这种 URL 信息在许多预测验语料库中齐很容易得到,它们大多来自 CommonCrawl2(一个通达的采集握取数据存储库))

当使用其他类型的元数据时,URL 应替换为相应的元数据称号。

他们只打算文档记号的交叉熵亏空,而不计划模板或元数据中的记号,因为在初步实验中发现,对这些记号进行测验会稍稍毁伤下贱性能。

终末10%的测验身手为冷却阶段,使用程序数据测验,摄取元数据转念阶段的学习率和优化器景况,即从上一阶段的终末一个查验点开动化学习率、模子参数和优化器景况,并接续凭证打算调养学习率:

1)禁用跨文档Attention,这既加速了测验速率(1.6B 模子的测验速率提高了 25%),彩娱乐官网又提高了下贱性能。

2)当将多个文档打包成一个序列时,咱们确保每个序列从一个新文档动手,而不是从一个文档的中间动手—当将文档打包成固定长度时,这可能会导致一些数据被丢弃,但事实评释这有意于提潦倒游性能。

本次实验使用了Llama Transformer架构和Llama-3 tokenizer。咱们使用四种不同的模子大小进行了实验:600M、1.6B、3B 和 8B,以及关联优化设立。

戒指显现,MeCo 的推崇显着优于程序预测验,其平均性能与 240B 记号的基线极端,而使用的数据却减少了 33%。

终末回来,他们主要完成了这三项孝敬。

1、 MeCo 大幅加速了预测验。

实考评释,MeCo 使一个 1.6B 的模子在少用 33% 的测验数据的情况下,达到了与程序预测验模子相似的平均下贱性能。在不同的模子规模(600M、1.6B、3B 和 8B)和数据源(C4、RefinedWeb 和 DCLM)下,MeCo 显现出一致的收益。

2、MeCo 开启了沟通说话模子的新要领。

举例,使用factquizmaster.com(非真的URL)不错提高知识性任务的性能(举例,在零次知识性问题解答中富余提高了6%),而使用wikipedia.org与程序的无条目推理比拟,毒性生成的可能性裁汰了数倍。

3、消解了 MeCo 的联想遴荐,并评释 MeCo 与不同类型的元数据兼容。

使用散列 URL 和模子生成的主题进行的分析标明,元数据的主要作用是按起首将文档归类。因此,即使莫得URL,MeCo 也能有用地整合不同类型的元数据,包括更精采的选项。

陈丹琦团队

论文作家来自普林斯顿NLP小组(隶属于普林斯顿说话与智能PLI)博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及陈丹琦。

一作高天宇,本科毕业于清华,是2019年清华特奖得主,当今普林斯顿五年龄博士生,瞻望本年毕业,接续在学界搞盘考,盘考规模包括天然说话惩办和机器学习的交叉规模,稀奇关切大说话模子(LLM),包括构建行使程序、提高LLM功能和效果。

Luxi He当今是普林斯顿打算机专科二年龄博士生,当今盘考重心是知晓说话模子并改善其一致性和安全性,硕士毕业于哈佛大学。

YiHe Dong当今在谷歌从事机器学习盘考和工程职责,专注于结构化数据的暗示学习、自动化特征工程和多模态暗示学习,本科毕业于普林斯顿。

— 完 —彩娱乐注册CLY588.VIP