彩娱乐邀请码 陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减
彩娱乐登陆网址

你的位置:彩娱乐官网 > 彩娱乐登陆网址 >

彩娱乐邀请码 陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

发布日期:2025-01-07 18:58    点击次数:165

陈丹琦团队又带着他们的降本大法来了——彩娱乐邀请码

数据砍掉三分之一,大模子性能却完全不减。

他们引入了元数据,加速了大模子预纯属的同期,也不增多单独的磋磨支出。

在不同模子限制(600M - 8B)和纯属数据源泉的情况下,均能终了性能方面的栽植。

诚然之前元数据道过许多,但一作高天宇暗意,他们是第一个展示它如何影响下流性能,以及具体如何施行以确保推理中具备大皆实用性。

来望望具体是如何作念到的吧?

粤山秀水,丰物岭南。广东是农业大省,2023年广东水产品总产量、农产品进出口总额均居全国首位。粤菜历史悠久,文化底蕴深厚,“广府菜”“潮汕菜”“客家菜”等粤菜餐饮风味特色鲜明,产业规模较大,纵向链接种植养殖、食品加工、物流仓储,横向融合旅游、文化、电商直播等产业,带动众多关联产业协同发展。

元数据加速大模子预纯属

话语模子预纯属语料库中存在着格调、范畴和质地水平的强大相反,这关于开发通用模子才调至关清贫,然则高效地学习和部署这些异构数据源中每一种数据源的正确步履却极具挑战性。

在这一配景下,他们淡薄了一种新的预纯属圭表,称为元数据调理然后冷却(MeCo,Metadata Conditioning then Cooldown)。

具体包括两个纯属阶段。

预纯属阶段(90%)彩娱乐邀请码,将元数据(如文档 URL 的统统域名c)与文档拼接(如 “URL: en.wikipedia.org [document]”)进行纯属。

(举例,要是文档的 URL 是 https://en.wikipedia.org/wiki/Bill Gates,那么文档 URL 的统统域名c等于 en.wikipedia.org;这种 URL 信息在许多预纯属语料库中皆很容易取得,它们大多来自 CommonCrawl2(一个灵通的蚁集握取数据存储库))

当使用其他类型的元数据时,URL 应替换为相应的元数据称呼。

他们只磋磨文档绚丽的交叉熵亏本,而不探究模板或元数据中的绚丽,因为在初步实验中发现,对这些绚丽进行纯属会稍稍毁伤下流性能。

终末10%的纯属技能为冷却阶段,使用模范数据纯属,接受元数据调理阶段的学习率和优化器景况,即从上一阶段的终末一个查验点开动化学习率、模子参数和优化器景况,并络续证据打算调整学习率:

1)禁用跨文档Attention,这既加速了纯属速率(1.6B 模子的纯属速率提高了 25%),彩娱乐登陆网址又提高了下流性能。

2)当将多个文档打包成一个序列时,咱们确保每个序列从一个新文档脱手,而不是从一个文档的中间脱手—当将文档打包成固定长度时,这可能会导致一些数据被丢弃,但事实解说这成心于提上下流性能。

本次实验使用了Llama Transformer架构和Llama-3 tokenizer。咱们使用四种不同的模子大小进行了实验:600M、1.6B、3B 和 8B,以及关联优化开发。

截止袒露,MeCo 的阐发昭着优于模范预纯属,其平均性能与 240B 绚丽的基线极端,而使用的数据却减少了 33%。

终末回归,他们主要完成了这三项孝顺。

1、 MeCo 大幅加速了预纯属。

实考解说,MeCo 使一个 1.6B 的模子在少用 33% 的纯属数据的情况下,达到了与模范预纯属模子疏通的平均下流性能。在不同的模子限制(600M、1.6B、3B 和 8B)和数据源(C4、RefinedWeb 和 DCLM)下,MeCo 袒泄露一致的收益。

2、MeCo 开启了指点话语模子的新圭表。

举例,使用factquizmaster.com(非真确URL)不错提高学问性任务的性能(举例,在零次学问性问题解答中统统提高了6%),而使用wikipedia.org与模范的无条目推理比拟,毒性生成的可能性缩小了数倍。

3、消解了 MeCo 的假想选拔,并解说 MeCo 与不同类型的元数据兼容。

使用散列 URL 和模子生成的主题进行的分析标明,元数据的主要作用是按源泉将文档归类。因此,即使莫得URL,MeCo 也能灵验地整合不同类型的元数据,包括更缜密的选项。

陈丹琦团队

论文作家来自普林斯顿NLP小组(隶属于普林斯顿话语与智能PLI)博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及陈丹琦。

一作高天宇,本科毕业于清华,是2019年清华特奖得主,现在普林斯顿五年龄博士生,预测本年毕业,络续在学界搞盘考,盘考范畴包括当然话语贬责和机器学习的交叉范畴,终点和蔼诳言语模子(LLM),包括构建运用模范、提高LLM功能和成果。

Luxi He现在是普林斯顿磋磨机专科二年龄博士生,现在盘考要点是意会话语模子并改善其一致性和安全性,硕士毕业于哈佛大学。

YiHe Dong现在在谷歌从事机器学习盘考和工程职责,专注于结构化数据的暗意学习、自动化特征工程和多模态暗意学习,本科毕业于普林斯顿。

— 完 —彩娱乐邀请码



友情链接:

Powered by 彩娱乐官网 @2013-2022 RSS地图 HTML地图