自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(151)
  • 资源 (28)
  • 收藏
  • 关注

原创 AI教母李飞飞2025开年之作-Agent AI全文翻译

多模态人工智能系统很可能成为我们日常生活中的普遍存在。使这些系统更具交互性的一个有希望的方法是将它们体现为物理和虚拟环境中的代理。目前,系统利用现有的基础模型作为创建具身代理的基本构建块。将代理嵌入到此类环境中,有利于模型处理和解释视觉和上下文数据的能力,这对创建更复杂且上下文感知的人工智能系统至关重要。例如,能够感知用户动作、人类行为、环境物体、音频表达和场景集体情感的系统,可以用于告知和指导代理在给定环境中的响应。

2025-01-19 11:05:06 4940

原创 Python与PyTorch的浅拷贝与深拷贝

在python中,x=something,这样的赋值操作,准确的理解是:给存储something建立一个索引x(即存储地址),x通过访问something的存储内容,获得something的值。.clone()是深拷贝,创建新的存储地址,而不是引用保存旧的tensor,在梯度回传的时候,clone()充当中间变量,会将梯度传给源张量进行叠加,但是本身不保存其grad,值为None..Tensor和.tensor是深拷贝,在内存中创建一个额外的数据副本,不共享内存,所以不受数组改变的影响。

2025-01-17 20:53:31 687

原创 【大语言模型】ACL2024论文-38 从信息瓶颈视角有效过滤检索增强生成中的噪声

从信息瓶颈视角有效过滤检索增强生成中的噪声概览本文旨在解决检索增强生成(Retrieval-Augmented Generation, RAG)任务中面对现实世界噪声数据时的挑战。尽管RAG结合了大型语言模型(LLMs)和从广泛语料库中检索到的相关信息,但在处理噪声数据时仍面临困难。现有的解决方案是训练一个过滤模块来寻找相关内容,但这种方法在噪声压缩方面效果不佳。

2025-01-16 18:48:57 1367

原创 【大语言模型】ACL2024论文-37 交互式文本到图像检索与大型语言模型:一种即插即用的方法

和留下您的评论,我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解。如果您对我的博客内容感兴趣,欢迎三连击 (

2025-01-16 18:42:33 972

原创 【大语言模型】DeepSeek与Kimi对论文内容理解的简单对比

近期国内 AI领域,Kimi与DeepSeek都在大力投入,这里对Kimi与DeepSeek的做简要的对比分析,包括技术方向、产品形态、用户市场和未来潜力。本文介绍了DeepSeek LLM项目,旨在通过研究扩展定律(Scaling Laws)来推动开源大语言模型(LLM)的发展。文章详细探讨了在7B和67B两种常见开源配置下,如何通过扩展定律优化模型的训练和性能。

2024-12-30 15:26:41 16038

原创 DeepSeek LLM通过长期主义扩展开源语言模型

开源大型语言模型 (LLM) 的快速发展令人惊叹。然而,先前文献中描述的扩展定律得出了不同的结论,这给扩展 LLM 蒙上了一层阴影。我们深入研究了扩展定律,并提出了我们独特的发现,这些发现有助于在两种广泛使用的开源配置(7B 和 67B)中扩展大型模型。在扩展定律的指导下,我们推出了 DeepSeek LLM,这是一个致力于从长期角度推动开源语言模型发展的项目。为了支持预训练阶段,我们开发了一个数据集,该数据集目前包含 2 万亿个符元,并且正在不断扩展。

2024-12-28 22:31:04 2271

原创 DeepSeek-V2:强大、经济且高效的专家混合语言模型

我们提出了 DeepSeek-V2,一种强大的专家混合 (MoE) 语言模型,其特点是经济的训练和高效的推理。它总共包括236B个参数,其中每个词符激活21B个参数,并支持128K Token 的上下文长度。DeepSeek-V2采用多头潜在注意力(MLA)和DeepSeekMoE等创新架构。MLA 通过将键值 (KV) 缓存显着压缩为潜在向量来保证高效推理,而 DeepSeekMoE 则可以通过稀疏计算以经济的成本训练强大的模型。

2024-12-28 22:10:55 4611

原创 【大语言模型】ACL2024论文-36 利用NLI和ChatGPT及编码簿知识进行零样本政治关系分类

本研究探讨了如何不依赖大量标注数据,通过利用现有标注编码簿中的专家知识,实现政治关系分类的零样本学习方法。研究评估了先进的ChatGPT(GPT-3.5/4)和基于自然语言推理(NLI)的模型ZSP的性能。ChatGPT使用编码簿的标记摘要作为提示,而ZSP将分类任务分解为上下文、事件模式和类别消歧,以提炼特定任务的假设。这种分解增强了可解释性、效率和对模式变化的适应性。实验揭示了ChatGPT的优势和局限性,并关键地显示了ZSP在字典基础上的方法和一些监督模型中的优越性。

2024-12-26 08:16:54 943

原创 【大语言模型】ACL2024论文-35 WAV2GLOSS:从语音生成插值注解文本

本文提出了一个名为WAV2GLOSS的任务,旨在自动从语音中提取插值注解文本(IGT),这是一种对语言文档和资源创建非常重要的语言学注释形式。IGT通常包括四个部分:(1) 转录,(2) 形态分割,(3) 词义解释,以及(4) 翻译成主要语言。作者介绍了第一个涵盖37种语言的标准格式数据集FIELDWORK,并提供了训练/开发/测试拆分。研究比较了端到端和级联的WAV2GLOSS方法,并提供了基于知名语音和自然语言处理模型的基准,为未来的研究奠定了基础。

2024-12-25 08:05:05 1467

原创 【大语言模型】ACL2024论文-34 你的模型能区分否定和隐含意义吗?通过意图编码器揭开挑战

本文探讨了在对话系统中,意图分类和意图聚类任务中使用的嵌入模型在理解语义方面的挑战,特别是在处理否定和隐含意义这两个在现实世界对话系统中至关重要的语义概念时。作者提出了一个意图语义工具包,通过三个任务——意图分类、意图聚类和一个新颖的三元组任务——来全面评估意图嵌入模型。研究发现当前的嵌入模型在这些概念的语义理解上表现不佳。为了解决这个问题,文章提出了一种预训练方法,通过利用自回归模型生成的数据和对比损失项来提高嵌入模型的语义理解能力。

2024-12-25 08:01:56 1029

原创 【电商搜索】文档的信息论生成聚类

实验结果表明,GC方法在多个数据集上取得了优于现有聚类方法的性能,尤其在生成式文档检索(Generative Document Retrieval, GDR)应用中,显著提高了检索准确率。文档聚类方面,传统方法依赖于文档的向量表示,而近期的研究开始探索预训练模型在聚类中的应用。实验设置包括在四个文档聚类数据集上的评估,以及在生成式文档检索中的应用。GC方法在所有数据集上均取得了优于现有方法的性能,尤其在MS Marco Lite数据集上,GC方法在检索准确率上取得了高达36%的改进。

2024-12-23 22:59:15 1372

原创 【电商搜索】CRM: 具有可控条件的检索模型

本文提出了一种新型的检索模型——可控检索模型(CRM),旨在通过将回归信息作为条件特征整合到双塔检索范式中,增强检索阶段与排名阶段之间的一致性,并提升检索模型的能力。通过实际的A/B测试验证了CRM的有效性,并展示了其在快手短视频推荐系统中的成功部署,该系统服务于超过4亿用户。

2024-12-23 22:54:01 864

原创 【电商推荐】平衡效率与效果:一种优化点击率预测的LLM融合方法

本文探讨了在线广告中点击率(CTR)预测的重要性,强调了语义信息在塑造用户决策和提高CTR效果中的关键作用。作者提出了一种新颖的方法,利用大型语言模型(LLMs)的全面世界知识能力,端到端地建模深度语义信息。提出的LLM融合CTR预测框架(Multi-level Deep Semantic Information Infused CTR model via Distillation, MSD)旨在通过利用LLMs提取和蒸馏关键信息到更小、更高效的模型中,实现无缝的端到端训练和推理。

2024-12-22 20:30:05 833

原创 【电商推荐】单个注意力层能学到什么?通过随机特征的视角进行研究

本文对单个多头注意力层的学习和泛化能力进行了严格的理论研究。注意力层是Transformer架构的核心构建块,在现代人工智能中取得了重大突破。文章考虑了随机特征设置,其中注意力层具有大量头,随机采样的冻结查询和键矩阵,以及可训练的值矩阵。研究表明,这种随机特征注意力层能够表达广泛的目标函数,这些函数对键向量是排列不变的。文章进一步为使用有限头数的随机特征注意力学习这些目标函数提供了量化的超额风险界限。

2024-12-22 20:24:28 1043

原创 【电商推荐】全文空间反事实学习:调整、分析属性和工业应用

本文针对构建有效推荐系统中的一个基本研究问题——点击后转化率(CVR)估计,长期受到数据稀疏性和样本选择偏差问题的困扰。为了缓解数据稀疏性问题,基于整个空间的多任务模型通过利用用户行为序列(曝光→点击→转化)构建辅助学习任务。然而,这些方法仍然存在两个主要缺陷:(1)内在估计偏差(IEB),即CVR估计值本质上大于实际值;(2)错误独立先验(FIP),即可能忽视了从点击到点击后转化的因果关系。

2024-12-22 20:20:52 981

原创 【电商推荐】 推荐系统中的犹豫与容忍度

本文探讨了推荐系统中用户交互的复杂性,特别是用户在面对推荐内容时的犹豫行为及其对用户体验的影响。通过大规模调查,研究者们发现犹豫不仅普遍存在,而且对用户体验有着深远的影响。当用户在他们最终不感兴趣的内容上花费额外时间时,可能会导致负面情绪,这种现象被称为容忍。调查结果显示,容忍行为通常在犹豫之后出现,并可能侵蚀对平台的信任、满意度和长期忠诚度。研究者们识别了表明容忍行为的信号,并分析了来自电子商务和短视频平台的数据集,发现容忍行为的增加与用户活动减少之间存在强相关性。

2024-12-22 20:11:06 901

原创 计算机前沿技术-人工智能算法-大语言模型-最新研究进 2024-12-22

本文介绍了FaultExplainer,一个基于大型语言模型(LLM)的自然语言系统,用于故障检测、诊断和解释。该系统集成了主成分分析(PCA)和T2统计量,并结合过程描述,提供基于地面的故障解释。系统还提供了一个用于实时监控和用户友好交互的Web界面,并展示了在诊断未见过的故障时的合理性能。

2024-12-22 17:12:51 1263

原创 【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱:通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧

大型语言模型(LLMs)在常识任务上表现出色,但它们也面临着来自不安全提示的威胁。现有的检测不安全提示的方法主要依赖在线内容审核 API 或微调过的 LLMs,这些策略通常需要大量的数据收集和资源密集型的训练过程。本研究提出了 GradSafe,一种通过检查 LLMs 中安全关键参数的梯度来有效检测不安全提示的方法。我们的方法基于一个关键观察:不安全提示与遵从响应(如“Sure”)配对时,LLM 的损失梯度在某些安全关键参数上表现出相似的模式,而安全提示则导致明显不同的梯度模式。

2024-12-21 17:03:40 1347

原创 【大语言模型】ACL2024论文-32 GradSafe: 通过安全关键梯度分析检测大型语言模型的不安全提示

大型语言模型(LLMs)面临着来自不安全提示的威胁。现有的检测不安全提示的方法主要是在线内容审核API或微调过的LLMs。然而,这些策略通常需要大量的数据收集和资源密集型的培训过程。在本研究中,我们提出了GradSafe,它通过审查LLMs中安全关键参数的梯度有效地检测不安全提示。我们的方法基于一个关键的观察:不安全提示与遵从响应(如“Sure”)配对时,LLM的损失梯度在某些安全关键参数上表现出相似的模式。相比之下,安全提示导致明显不同的梯度模式。

2024-12-21 16:57:33 1096

原创 【大语言模型】ACL2024论文-31 每个答案都很重要:用概率度量评估常识

大型语言模型在常识任务上表现出了令人印象深刻的性能,但这些任务通常以多项选择题的形式提出,允许模型利用系统性偏见。常识本身也是概率性的,有多个正确答案。例如,“烧开水”的目的可能是泡茶、烹饪,也可能是杀菌。现有任务没有捕捉到常识的概率性质。因此,我们提出了一种新的生成性任务——常识框架补全(CFC),通过多个开放式生成来评估常识。我们还提出了一种与人类判断强烈相关的概率评估方法。人类在我们的数据集上大幅超越了强大的语言模型基线,表明这种方法既是对机器常识的挑战性评估,也是有用的评估。

2024-12-21 16:37:54 650

原创 【大语言模型】ACL2024论文-30 探索语言模型在文本分类中的伪相关性:概念层面的分析

本文研究了语言模型(LMs)在文本分类任务中由于训练数据中不平衡的标签分布或上下文学习(ICL)示例而产生的伪相关性问题。以往的研究主要集中在单词、短语和句法特征上,而忽略了概念层面,这通常是由于缺乏概念标签和难以识别输入文本中的概念内容。本文的主要贡献有两个:首先,我们使用ChatGPT为文本分配概念标签,评估模型在细调和ICL测试数据中的概念偏差;其次,我们引入了一种数据重平衡技术,通过结合ChatGPT生成的反事实数据,平衡标签分布,减轻伪相关性。

2024-12-21 16:31:48 1581

原创 【大语言模型】ACL2024论文-29 答案即所需:通过回答问题实现指令跟随的文本嵌入

本研究旨在构建一个能够根据用户指令捕捉文本特征的文本嵌入模型。以往的方法未能提供具体的解决方案来实现用户导向的嵌入。本文提出了一个新的视角,将指令视为关于输入文本的问题,并编码预期答案以获得相应的表示。我们提出的INBEDDER模型通过在抽象式问答任务上微调语言模型来实现这一理念,并在大型语言模型(LLMs)和较小的编码器基础语言模型上展示了显著改善的指令跟随能力。此外,我们通过对相同语料库应用不同指令进行聚类分析的定性分析,展示了模型的高可解释性。

2024-12-21 16:22:21 1461

原创 【大语言模型】ACL2024论文-28 TTM-RE: 增强记忆的文档级关系抽取

本文提出了TTM-RE,一种新颖的方法,它通过集成可训练的记忆模块(Token Turing Machine)和鲁棒的损失函数来解决文档级关系抽取问题。这种方法特别针对大规模、噪声多的训练数据,通过实验表明,TTM-RE在ReDocRED基准数据集上实现了最先进的性能,绝对F1分数提高了超过3%。

2024-12-21 16:18:57 1331

原创 【大语言模型】ACL2024论文-27 Mementos:一个全面的多模态大型语言模型在图像序列推理上的基准测试

本文介绍了Mementos,一个旨在评估多模态大型语言模型(MLLMs)在图像序列上的顺序推理能力的新型基准测试。Mementos包含了4761个不同长度的多样化图像序列,并采用GPT-4辅助的方法来评估MLLMs的推理性能。通过对九个最新的MLLMs(包括GPT4V和Gemini)的细致评估,研究发现这些模型在准确描述给定图像序列的动态信息时存在困难,常常导致对象及其行为的幻觉/误表示。

2024-12-16 22:26:45 1203

原创 【大语言模型】ACL2024论文-26 在支持数据存在的情况下进行框架构建:以美国经济新闻为例研究

本文提出了一个计算框架,用于分析在存在支持数据的情况下的新闻编辑选择。研究聚焦于经济新闻,因为经济指标的报道提供了一个相对简单的方法来确定不同出版物的选择和框架。通过这些指标的值,我们可以了解经济的实际状况,以及出版物如何选择报道它。研究定义了框架预测作为一系列相互依赖的任务。在文章层面,我们学习识别对经济总体状况的报道立场。然后,对于文章中报告的每个数值量,我们学习识别它是否对应于经济指标,以及它是以积极还是消极的方式被报道。通过跟踪2015年至2023年间六家美国出版商的头条文章,我们进行了分析。

2024-12-15 12:50:26 1274

原创 【深度模型】OpenVoice: 多才多艺的即时语音克隆

OpenVoice是一种多才多艺的即时语音克隆方法,它只需要来自参考说话者的短音频剪辑就能复制他们的声音,并在多种语言中生成语音。这项技术在语音风格控制和零样本跨语言语音克隆方面取得了显著进展。与传统方法相比,OpenVoice在计算效率上也有显著提升,成本远低于市面上的API,同时提供了更好的性能。为了推动该领域的研究,研究者们已经将源代码和训练好的模型公开,并在演示网站上提供了定性结果。

2024-12-15 12:35:00 1250

原创 【大语言模型】ACL2024论文-25 微妙偏见需要更微妙的衡量:双重指标评估大型语言模型中的代表性和亲和力偏见

本研究关注大型语言模型(LLMs)中常被忽视的微妙偏见,这些偏见虽不明显,但可能显著影响模型输出,使其倾向于特定的社会叙事。研究提出了两种新的衡量指标:代表性偏见得分(RBS)和亲和力偏见得分(ABS),并介绍了面向创造力的生成套件(CoGS),这是一个包含开放式任务的集合,如短篇故事写作和诗歌创作,旨在检测这些微妙偏见。分析发现,主流LLMs存在明显的代表性偏见,倾向于与白人、异性恋和男性相关的身份。亲和力偏见的调查揭示了每个模型内独特的评估模式,类似于“偏见指纹”。

2024-12-12 08:03:18 1667

原创 【大语言模型】ACL2024论文-24 图像化歧义:Winograd Schema 挑战的视觉转变

本文介绍了 WINOVIS,这是一个新颖的数据集,旨在探究文本到图像模型在多模态情境中对代词消歧的能力。研究者利用 GPT-4 生成提示,并采用扩散注意力归因图(DAAM)进行热图分析,提出了一个新的评估框架,将模型在代词消歧方面的能力与其他视觉处理挑战区分开来。通过评估不同版本的模型,研究发现即使最先进的模型如 Stable Diffusion 2.0 在 WINOVIS 上的精确度仅为 56.7%,仅略高于随机猜测,显示出从以往版本到当前的微小进步。

2024-12-03 07:59:29 1403

原创 【大语言模型】ACL2024论文-23 检索增强的多语言知识编辑

本文提出了一种名为检索增强多语言知识编辑器(ReMaKE)的方法,旨在更新大型语言模型(LLMs)中的知识。由于LLMs中的知识经常不正确或过时,且通过微调更新知识计算成本高昂且不可靠,因此知识编辑(KE)作为一种有效且经济的替代方案应运而生。当前的KE研究主要集中在单一语言设置中,通常是英语。ReMaKE通过从多语言知识库检索新知识并与提示串联,实现多语言设置中的模型无关知识编辑。实验结果表明,ReMaKE在多语言环境中的表现超过了基线知识编辑方法,是首个在多语言设置中工作的知识编辑方法。

2024-12-02 08:04:33 1563

原创 【大语言模型】ACL2024论文-22 大型语言模型中的自信心:探究大型语言模型生成回答的自信心与概率一致性

本文探讨了大型语言模型(LLMs)在生成回答时的自信心与概率一致性问题。随着LLMs在各个领域的广泛应用,理解模型自我评估的自信心对于输出的可靠性至关重要。研究者提出了“自信心-概率一致性”概念,将模型内部的自信心(通过token概率量化)与模型在被明确询问时表达的自信心联系起来。通过使用不同的数据集和提示技术,研究者分析了模型内部和表达的自信心之间的一致性。研究发现,OpenAI的GPT-4在多种任务中展现出最强的自信心-概率一致性。这项工作有助于促进LLMs应用中的风险评估,并进一步理解模型的可信度。

2024-11-29 08:11:32 2130

原创 【大语言模型】ACL2024论文-21 通过冗余减少加快视觉条件语言生成的训练

本文介绍了EVLGen,这是一个为视觉条件语言生成模型预训练设计的高效框架,特别适用于计算需求高的场合,并且利用了冻结的预训练大型语言模型(LLMs)。传统的视觉语言预训练(VLP)通常涉及两个阶段的优化过程:第一阶段是资源密集型的,专注于通用视觉-语言表示学习,第二阶段则强调视觉和语言模态之间的端到端对齐。EVLGen通过在训练过程中逐步合并相似的视觉标记,避免了计算密集的第一阶段,同时避免了单阶段训练BLIP-2类型模型时的模型崩溃问题。

2024-11-26 07:57:34 1163

原创 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-05

本文提出了一种利用大型语言模型(LLM)的上下文知识检索(ICKR)能力来改进音素转换(G2P)系统的方法。该方法通过提供更丰富的语义信息来解决G2P映射中的歧义问题,并在Librig2p数据集上取得了显著的性能提升。

2024-11-23 16:09:59 1399

原创 【大语言模型】ACL2024论文-20 SCIMON:面向新颖性的科学启示机器优化

本文探索并增强了神经语言模型生成基于文献的新颖科学方向的能力。传统的基于文献的假设生成工作通常集中在二元链接预测上,这严重限制了假设的表达性,并且没有专注于优化新颖性。本文提出了一种新的设置,模型使用背景上下文(例如问题、实验设置、目标)作为输入,并输出基于文献的自然语言想法。

2024-11-23 15:52:26 1364

原创 【大语言模型】ACL2024论文-19 SportsMetrics: 融合文本和数值数据以理解大型语言模型中的信息融合

本文介绍了SportsMetrics,这是一个旨在评估大型语言模型(LLMs)在数值推理和信息融合能力方面的新基准。通过提供详细的体育比赛逐场描述,挑战LLMs处理新游戏规则、更长的描述、混乱的叙述和分析游戏摘要中的关键统计数据。在NBA和NFL比赛上的广泛实验表明,SportsMetrics能够评估LLMs在这些任务上的性能。

2024-11-21 23:36:33 1445

原创 【大语言模型】ACL2024论文-18 MINPROMPT:基于图的最小提示数据增强用于少样本问答

本文提出了MINPROMPT,一个用于开放域问答(QA)任务的最小数据增强框架,旨在通过近似图算法和无监督问题生成来提高少样本QA的效率和准确性。MINPROMPT通过将原始文本转换为图结构,建立不同事实句子之间的联系,然后应用图算法识别覆盖原始文本中最大部分信息的最小句子集合。基于这些句子生成问答对,并在选定的句子上训练模型以获得最终模型。实验结果表明,MINPROMPT在效率上与基线相比具有可比性或更好的结果,F1分数提高了最多27.5%。

2024-11-21 23:28:40 1034

原创 【大语言模型】ACL2024论文-17 VIDEO-CSR:面向视觉-语言模型的复杂视频摘要创建

本文介绍了一个新的任务和人类标注的数据集Video-CSR(Captioning, Summarization and Retrieval,即标题生成、摘要和检索),旨在评估视觉-语言模型生成真实世界视频剪辑的字幕和摘要的能力。数据集包含4.8K个YouTube视频剪辑,每个视频剪辑时长在20-60秒之间,覆盖广泛的主题和兴趣点。每个视频剪辑对应5个独立标注的字幕(1句话)和摘要(3-10句话)。

2024-11-20 21:19:40 1634

原创 【大语言模型】ACL2024论文-16 基于地图制图的罗马尼亚自然语言推理语料库的新型课程学习方法

本文的主要贡献是介绍了第一个公开的罗马尼亚语自然语言推理(NLI)语料库RoNLI,它包含58K训练句子对和6K验证及测试句子对。这些句子对通过远程监督获取和手动标注得到正确的标签。文章还提出了一种基于数据制图的新型课程学习策略,通过该策略改进了最佳模型。数据集和复现基线的代码已在GitHub上公开。

2024-11-18 23:36:38 1018

原创 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-04

随着大型语言模型(LLMs)的快速发展,它们越来越多地被集成到移动设备中,以提供个性化辅助。这使得LLMs能够调用外部API函数来增强其性能。然而,数据稀缺、无效的问题格式化和灾难性遗忘等挑战阻碍了设备内LLM代理的发展。为了解决这些问题,我们提出了Alopex,一个框架,它使用Fox LLM启用精确的设备内函数调用。Alopex引入了一种基于逻辑的方法来生成高质量的训练数据,并采用了一种新颖的“描述-问题-输出”格式进行微调,减少了函数信息泄露的风险。

2024-11-17 09:50:51 1738

原创 【大语言模型】ACL2024论文-15 大型语言模型中的最佳解释推断

大型语言模型(LLMs)在现实世界的应用中取得了成功,但它们背后的解释过程仍然不为人所充分理解。本文提出了一个受哲学上最佳解释推断(IBE)启发的框架IBE-Eval,以推进对LLMs解释的理解和评估。IBE-Eval通过结合明确的逻辑和语言特征(包括一致性、简洁性、连贯性和不确定性)来估计自然语言解释的可信度。在因果问题回答(CQA)上进行了广泛的实验,其中IBE-Eval的任务是在由LLMs(例如GPT 3.5和Llama 2)生成的竞争性解释中选择最可信的因果解释。

2024-11-17 09:35:18 1549

原创 【大语言模型】ACL2024论文-14 任务:不可能的语言模型

本文探讨了大型语言模型(LLMs)是否能够学习人类认为可能和不可能的语言。尽管有观点认为LLMs无法区分这两者,但目前缺乏实验证据支持这一论断。研究者们开发了一系列不同复杂度的合成不可能语言,通过系统地改变英语数据的词序和语法规则来设计这些语言。这些语言构成了一个不可能性的连续体,从本质上不可能的语言(例如随机且不可逆的英语单词洗牌)到在语言学中常被认为不可能的语言(尤其是基于词数位置的规则)。

2024-11-16 16:42:32 1152

论文代码-DEAN: 通过去激活耦合神经元来减轻大型语言模型中的公平性与隐私冲突

在大型语言模型(LLMs)中确保对公平性和隐私的关注至关重要。有趣的是,我们发现了一个违反直觉的现象:通过监督式微调(SFT)方法增强LLM的隐私意识会显著降低其公平意识。为了解决这一问题,受信息论启发,我们引入了一种无需训练的方法DEAN(DEActivate the fairness and privacy coupled Neurons),理论上和实证上都减少了公平性和隐私意识之间的相互信息。广泛的实验结果表明,DEAN消除了权衡现象,并显著提高了LLMs的公平性和隐私意识,例如,将Qwen-2-7B-Instruct的公平意识提高了12.2%,隐私意识提高了14.0%。更重要的是,即使在有限的标注数据或仅恶意微调数据可用时,DEAN仍然保持鲁棒和有效,而SFT方法在这些场景中可能无法正常工作。我们希望这项研究为同时解决LLMs中的公平性和隐私问题提供了宝贵的见解,并可以集成到更全面的框架中,以开发更具道德和责任感的AI系统。

2024-10-28

DEAN: 通过去激活耦合神经元来减轻大型语言模型中的公平性与隐私冲突

在大型语言模型(LLMs)中确保对公平性和隐私的关注至关重要。有趣的是,我们发现了一个违反直觉的现象:通过监督式微调(SFT)方法增强LLM的隐私意识会显著降低其公平意识。为了解决这一问题,受信息论启发,我们引入了一种无需训练的方法DEAN(DEActivate the fairness and privacy coupled Neurons),理论上和实证上都减少了公平性和隐私意识之间的相互信息。广泛的实验结果表明,DEAN消除了权衡现象,并显著提高了LLMs的公平性和隐私意识,例如,将Qwen-2-7B-Instruct的公平意识提高了12.2%,隐私意识提高了14.0%。更重要的是,即使在有限的标注数据或仅恶意微调数据可用时,DEAN仍然保持鲁棒和有效,而SFT方法在这些场景中可能无法正常工作。我们希望这项研究为同时解决LLMs中的公平性和隐私问题提供了宝贵的见解,并可以集成到更全面的框架中,以开发更具道德和责任感的AI系统。

2024-10-28

从直接偏好的角度优化大型语言模型:数据效率的视角

本文研究了如何通过直接偏好优化(DPO)来微调预训练的大型语言模型(LLMs),以减少对大量偏好数据的依赖,这些数据的收集成本较高。我们系统地比较了使用不同百分比的组合偏好判断数据集进行微调的模型性能,以定义DPO的改进曲线,并在数据受限的环境中评估其有效性。我们的研究表明,增加训练数据量通常会增强和稳定模型性能,而且使用多种数据集的组合显著提高了模型的有效性。此外,当模型分别使用不同类型的提示进行训练时,使用对话提示训练的模型优于使用问答提示训练的模型。

2024-10-28

大型语言模型助力的多代理集成方法,用于高效的电子健康记录数据标注

本研究介绍了一种由大型语言模型(LLMs)支持的新型多代理集成方法,以解决机器学习中的一个关键挑战——数据标注,特别是在大规模电子健康记录(EHR)数据集中。手动标注这些数据集既耗费人力、耗时、昂贵,又容易出错,通常需要领域专家知识。为了克服这一瓶颈,我们开发了一种集成LLMs的方法,并在两个真实的医疗保健任务中证明了其有效性:(1)在医疗信息市场为重症监护(MIMIC)-IV中对大规模未标注的心电图(ECG)数据集进行标注;(2)从EHR的临床笔记中识别社会决定因素(SDOH)。在权衡利弊和成本后,我们选择了一组具有满意性能的多样化开源LLMs。我们将每个LLM的预测视为一票,并应用了一种多数投票机制,设定了最小的获胜阈值进行集成。我们实现了一个用于EHR数据标注任务的集成LLMs应用程序。通过使用集成LLMs和自然语言处理,我们以估计98.2%的准确率标注了MIMIC-IV ECG数据集中的623,566份ECG报告。我们将集成LLMs方法应用于从1,405份EHR临床笔记的社会历史部分识别SDOH,也取得了有竞争力的性能。我们的实验表明,集成LLMs可以超越单个LLM,甚至是最佳

2024-10-28

大型身体语言模型论文,不错的大语言模型研究工作

随着虚拟代理人在人机交互中的日益普及,实时生成真实且符合上下文的手势仍然是一个重大挑战。尽管神经渲染技术在静态剧本中取得了实质性进展,但它们在人机交互中的适用性仍然有限。为了解决这个问题,我们引入了大型身体语言模型(LBLMs),并提出了LBLM-AVA,这是一种新颖的LBLM架构,它结合了Transformer-XL大型语言模型和并行化扩散模型,从多模态输入(文本、音频和视频)中生成类似人类的手势。LBLM-AVA包含几个关键组件,增强了其手势生成能力,例如多模态到姿态嵌入、增强的序列到序列映射、具有重新定义的注意力机制的时间平滑模块以及用于增强现实感的基于注意力的细化模块。该模型在我们大规模专有开源数据集Allo-AVA上进行训练。LBLM-AVA在生成逼真且符合上下文的手势方面取得了最先进的性能,与现有方法相比,Fréchet Gesture Distance(FGD)降低了30%,Fréchet Inception Distance提高了25%。

2024-10-28

通过字节编码的子词嵌入:在不牺牲准确性和复杂度的情况下获得隐私保护

随着自然语言处理(NLP)模型,特别是大型语言模型(LLMs)的显著进步,人们对隐私侵犯的担忧日益增加。尽管联邦学习(FL)增强了隐私保护,但攻击者仍可能通过利用模型参数和梯度来恢复私有训练数据。因此,防御此类嵌入攻击仍然是一个开放的挑战。为了解决这个问题,我们提出了一种新的子词嵌入方法——从字节到子词嵌入(SEB),并使用深度神经网络对子词进行字节序列编码,使得输入文本的恢复变得更加困难。重要的是,我们的方法在保持相同输入长度的效率的同时,只需要256字节的词汇表大小的内存。因此,我们的解决方案通过保持隐私而不失效率或准确性,优于传统方法。我们的实验表明,SEB可以有效地防御联邦学习中基于嵌入的攻击,恢复原始句子。同时,我们验证了SEB在机器翻译、情感分析和语言建模方面获得了与标准子词嵌入方法相当甚至更好的结果,并且时间和空间复杂度更低。

2024-10-28

通过直接偏好优化对齐代码语言大模型

本文探讨了大型语言模型(LLMs)在编程任务中的应用,特别是代码语言模型(CodeLLMs)。CodeLLMs不仅能辅助完成各种编程任务,还能体现LLMs的决策和逻辑推理能力。然而,当前的CodeLLMs主要关注预训练和监督式微调场景,而对训练后模型的对齐阶段关注不足。本研究首先指出,常用的PPO算法可能不是对CodeLLMs进行对齐的最优选择,因为涉及的奖励规则通常是粗粒度且可能存在缺陷。我们提倡使用DPO算法来解决这一问题。DPO基于偏好数据对,可以自动对模型进行排序,从而产生比人为干预更精细、更稳健的奖励模式。我们还为CodeLLMs上的DPO提供了一个收集偏好对的流程。研究表明,我们的方法显著提高了现有CodeLLMs在MBPP和HumanEval等基准测试上的性能。

2024-10-28

Toolken+: 通过重新排名和拒绝选项改进大型语言模型的工具使用

最近提出的工具学习范式ToolkenGPT展示了有希望的性能,但存在两个主要问题:首先,它无法从工具文档中受益;其次,它经常在是否使用工具上犯错误。我们介绍了Toolken+,通过重新排名ToolkenGPT选择的前k个工具来缓解第一个问题,并通过特殊的“拒绝”选项解决第二个问题,以便当“拒绝”排名第一时,模型将生成一个词汇标记。我们在多步骤数值推理和工具选择任务上展示了Toolken+的有效性。

2024-10-26

继续法律预训练和指令微调对大型语言模型在人类定义的法律概念的潜在表示的影响

这篇论文旨在为人工智能与法律领域的研究人员和实践者提供更详细的理解,即在法律语料上继续预训练和指令微调(IFT)是否以及如何增加大型语言模型(LLMs)在开发输入序列的全局上下文表示时对人类定义的法律概念的利用。我们比较了三个模型:Mistral 7B、SaulLM-7B-Base(在法律语料上继续预训练的Mistral 7B)和SaulLM-7B-Instruct(进一步IFT)。这个初步评估检查了7个不同的文本序列,每个序列都包含了一个人类定义的法律概念。我们首先比较了模型分配给代表法律概念的标记子集的总注意力的比例。然后,我们可视化了原始注意力分数变化的模式,评估法律训练是否引入了与人类法律知识结构相对应的新颖注意力模式。这项调查揭示了(1)法律训练的影响在各种人类定义的法律概念之间不均匀分布,以及(2)在法律训练中学到的法律知识上下文表示与人类定义的法律概念的结构不相符。我们以进一步调查法律LLM训练动态的建议结束。

2024-10-26

整体推理与长文本语境的语言模型:大规模文本数据上的数据库操作基准测试

随着文本信息的快速增长,我们需要更高效的方法来筛选、组织和理解这些信息。虽然检索增强型生成(RAG)模型在访问大型文档集合中的信息方面表现出色,但它们在处理需要跨多个文档聚合和推理的复杂任务时存在困难,这就是所谓的整体推理。长文本语境的语言模型(LCLMs)在处理大规模文档方面具有很大的潜力,但它们在这方面的能力仍然不清楚。在这项工作中,我们介绍了HoloBench,这是一个新的框架,它将数据库推理操作引入基于文本的上下文中,使系统地评估LCLMs在处理大型文档的整体推理能力变得更加容易。我们的方法调整了上下文长度、信息密度、信息分布和查询复杂性等关键因素,以全面评估LCLMs。我们的实验表明,上下文中的信息量对LCLM性能的影响大于实际的上下文长度。此外,查询的复杂性对性能的影响超过了信息量,特别是对于不同类型的查询。有趣的是,涉及寻找最大值或最小值的查询对LCLMs来说更容易,并且受上下文长度的影响较小,尽管它们对RAG系统构成了挑战。然而,需要聚合多条信息的任务随着上下文长度的增加而准确度明显下降。此外,我们发现,尽管分组相关信息通常会提高性能,但最佳定位因模型而异。我们的发现揭

2024-10-26

DISP-LLM: 大型语言模型的维度无关结构性剪枝

本文提出了一种新的结构性剪枝方法,用于压缩大型语言模型(LLMs),而不需要额外的后处理步骤。该方法通过打破传统结构性剪枝方法中的结构依赖,允许不同层选择不同的特征子集,并且可以自由调整每层的宽度,从而显著提高了结构剪枝的灵活性。实验结果表明,该方法在多种LLMs上的表现超过了其他最先进的方法,并首次展示了结构性剪枝可以达到与半结构性剪枝相似的准确性。

2024-10-26

大型语言模型的公平性悖论

本文研究了大型语言模型(LLMs)在训练过程中的token级动态,特别是权重衰减对不同频率token性能的影响。研究发现,随着权重衰减的增加,模型对低频token的性能影响更大,这在大多数语言中构成了词汇的绝大多数。这一发现对于确保所有可用token的公平性至关重要,需要开发新的正则化技术。

2024-10-26

利用半监督学习改进非点击样本的转化率预测方法

主要内容:提出了一种名为NISE的新方法,这种方法将所有未被点击的样本视为无标记,并预测若点击是否会产生转换,进而缓解假负样本(False Negative Samples)的问题。此外引入了点击率任务来提升参数转移的能力,使多任务架构得到增强。研究结果显示,在多种推荐模型下均比当前最佳方案有相对性能的提高。NISE方法可以集成到各种流行的多任务学习框架中。动态加权机制确保训练过程中任务平衡,实验验证了所提出方法的有效性和实用性。 适合人群:研究推荐系统的人工智能专业科研学者、工程从业人员。 使用场景及目标:解决推荐系统中存在的样本选择偏差与数据稀疏等问题以及如何有效利用非点击的数据进行准确的转化率估计。 其他说明:本成果已应用到真实世界数据集验证并开源了代码以方便他人复现研究工作。

2024-10-12

超越单一音频:推进音频大型语言模型中的多音频处理

最近探索了各种音频大型语言模型(ALLMs),这些模型使用单一的、统一的模型同时处理不同的音频任务。尽管现有的ALLMs评估主要集中在单一音频任务上,但现实世界的应用通常涉及同时处理多个音频流。为了弥补这一差距,我们提出了第一个多音频评估(MAE)基准,它包括来自11个多音频任务的20个数据集,涵盖语音和声音场景。在MAE上的全面实验表明,现有的ALLMs在理解单个音频输入中的主要音频元素方面非常强大,但在处理多音频场景时却很困难。为此,我们提出了一种新颖的多音频大型语言模型(MALLM),通过我们提出的合成数据上的判别学习来捕获多个相似音频之间的音频上下文。结果表明,我们提出的MALLM在所有基线上都取得了优异的性能,并且在使用合成数据时具有高数据效率,无需人工注释。

2024-10-07

使用多模态大型语言模型(MLLMs)推进交通系统中的目标检测:一项全面回顾和实证测试

本研究旨在全面回顾和实证评估多模态大型语言模型(MLLMs)和大型视觉模型(VLMs)在交通系统目标检测中的应用。研究首先提供了MLLMs在交通应用中的潜在优势的背景,并回顾了先前研究中当前MLLM技术的有效性和局限性。然后提供了交通应用中端到端目标检测的分类法和未来方向的概述。在此基础之上,提出了对三个实际交通问题的MLLMs进行实证分析,包括道路安全属性提取、安全关键事件检测和热图像视觉推理。研究结果提供了对MLLM性能的详细评估,揭示了其优势和改进领域。

2024-10-07

FoodMLLM-JP:利用多模态大型语言模型进行日文食谱生成

这篇文章探讨了如何使用多模态大型语言模型(MLLMs)来理解食物图像,并生成对应的日文食谱。鉴于食物与人们生活的密切关系,这一研究领域对于实际应用(如饮食管理)至关重要。文章中,作者们对现有的MLLMs进行了微调,并在日文食谱数据集上进行了性能评估,与封闭模型GPT-4o进行了对比。研究表明,经过食谱数据训练的开放模型在生成食材方面的表现超过了GPT-4o。

2024-10-07

CurricuLLM: 使用大型语言模型自动设计学习复杂机器人技能的教学大纲

CurricuLLM 是一种利用大型语言模型(LLMs)为复杂机器人控制任务自动生成教学大纲的方法。该方法通过逐步增加任务难度来促进目标任务的学习。CurricuLLM 包括生成子任务序列的自然语言描述、将子任务描述翻译成可执行的任务代码,以及基于轨迹回滚和子任务描述评估训练策略。在多种机器人模拟环境中评估了 CurricuLLM,并在现实世界中验证了通过 CurricuLLM 学习到的类人机器人运动策略。

2024-10-07

大型语言模型在医学领域摘要任务的评估:一项叙述性综述

本文是一篇叙述性综述,旨在评估大型语言模型(LLMs)在临床摘要任务中的当前评估状态,并提出未来的方向,以解决专家人工评估的资源限制问题。

2024-10-07

大型语言模型的有害微调攻击与防御:一项综述

文章讨论了大型语言模型(LLMs)在微调即服务(fine-tuning-as-a-service)模式下可能面临的安全问题。微调过程中,如果用户上传的数据包含有害信息,可能会破坏模型的安全对齐。这种攻击被称为有害微调攻击,引起了广泛研究兴趣。文章旨在澄清攻击设定中的一些常见问题,并正式建立研究问题。介绍了问题的危害模型,系统地调查了攻击、防御和机械分析方面的现有文献,并概述了未来的研究方向。

2024-10-07

大模型 多模态大型语言模型中的视觉提示:一项综述

多模态大型语言模型(MLLMs)通过赋予预训练的大型语言模型(LLMs)视觉能力,使得模型能够在复杂的多模态任务上进行视觉理解和推理。尽管针对LLMs的文字提示已经得到了广泛研究,但视觉提示作为一种新范式,能够提供更细粒度和自由形式的视觉指令。本文是对MLLMs中视觉提示方法的首次全面综述,聚焦于视觉提示、提示生成、组合推理和提示学习。 这篇文章对现有视觉提示进行了分类,并讨论了自动提示注释图像的生成方法。此外,还检验了能够改善视觉编码器与主干LLMs之间对齐的视觉提示方法,关注MLLMs的视觉锚定、对象指称和组合推理能力。总结了模型训练和上下文学习方法,以提高MLLMs对视觉提示的感知和理解。

2024-10-05

大模型基于指令调整的大规模语言模型进行零样本密集检索的无监督文本表示学习

本文介绍了一种新颖的方法来解决信息检索领域内的无标签数据增强难题,这种方法通过自指调校大规模预训练编码器-解码器语言模型(LLM),采用双编码检索模型框架来进行文本嵌入层面上的相关查询生成和关键词提取,有效增强语料表征。此方法不仅适用于少量英语资料集,并成功地在一个德语语料库上实现了跨语系的泛化效果。相较于其他强基线模型,在不牺牲模型效能的情况下,该技术可以显著减少参数量。 适合人群:信息检索专业研究者、NLP研究人员、文本挖掘领域的工程师和技术人员等。 使用场景及目标:本论文所提出的技术能够改善缺乏已注记训练资料情况下密集检索系统的效率及质量。其主要应用在于提升无监督学习的表现,并特别着重于对新任务和不同语系进行快速适应的能力。 本成果展示了在不依赖带注释数据的约束下,提高零样本情况下的检索性能。与几种现有多语言密索引检索器对比时,所提出的解决方案取得了较好的表现。此外,这种新的方法也证明了即使对于更大尺寸的语言模型来说也是有效可行的。

2024-10-05

大模型基于大型语言模型自动生成图表数据集SynChart的研究与实现

内容概要:本文研究了利用大规模语言模型(Large Language Models, LLMs)自动生成图表及相关元数据的可能性与方法,并构建了一个大规模的数据集,称为SynChart。该数据集包含约400万个不同类型的图表图片以及超过7500万条详细注释,涵盖了数据表、生成代码、描述和问答对等信息。研究人员运用合成的方式从多个维度确保了图表及其标签的质量与多样性,并利用SynChart训练出了具有近似于GPT-4水平的42亿参数规模的图表专用多模态模型,在ChartQA任务上表现出优异的效果。 适用人群:该研究对于从事自然语言处理、机器视觉和数据科学领域的研究人员有较高的借鉴意义。 使用场景及目标:该工作的主要应用领域在于推动图表理解与生成的进展,为多模态模型训练提供了高质而海量的合成数据支持,有助于进一步提升此类系统的性能并拓展应用场景。 其他说明:通过本项研究,作者们还详细探讨了合成方法在创建用于多模态模型预训练和fine-tuning的数据集中所起的作用,并强调即使是小型高质量的数据集也能有效促进模型理解和生成人类级别的图像解释能力的进步。

2024-10-05

大模型高效大型语言模型架构搜索与权重重构方法研究

本文提出了无训练阶段的神经网络结构搜索框架来发掘大型语言模型(LLMs)的有效子网络结构,同时介绍了一种基于交替方向乘子法的小样本权重复构机制。实验结果显示该方法优于现有最先进的压缩技术和结构化剪枝技术,在多个数据集上表现优秀,并能够大幅减少GPU内存消耗,加速推理过程。所提出的架构搜索框架和权重复构方法不仅优化了现有模型效率,而且在广泛的任务与继承比率下展现出了优越的一致性和鲁棒性,证明了该方法在大型语言模型中的实用价值以及在未来大规模模型中的应用潜力。 适合人群:对大型预训练语言模型(LLMs)的结构优化和性能改进感兴趣的研究人员。 使用场景及目标:①利用提出的无训练框架识别高效子网结构;②采用权重复构算法进一步提升模型有效性,特别适用于资源受限设备的大规模语言模型优化。 额外说明:文中详细介绍了架构搜索框架及其初始化、进化流程,并提供了详尽实验验证方法优势所在。

2024-10-05

大模型SEAL:基于大型语言模型增强的层次化模仿学习方法

内容概要:SEAL是一种新的层次化的模仿学习框架。它引入了一种利用预训练大型语言模型(LLMs)生成高层次计划并提供有意义的目标表示的方法,而不需要任务层级的先验知识。为了强化子目标表征,研究提出了一种双编码器架构,分别采用了带有监督机制的LLMs 子目标学习以及非监督的矢量量化(Vector Quantization)。另外,SEAL 还融合了过渡增强型低级别规划器来改进对长跨度任务中目标状态转换情况下的适应度,实验证明这种方法可以显著提升复杂任务下的性能表现。 适合人群:具有强化学习和层次化模仿学习基础的人群。 使用场景及目标:用于解决机器人操作任务,特别是在少量专家数据的情况下解决长时间序列、稀疏奖励的任务,同时保持较好的泛化能力和较强的鲁棒性。 使用限制与注意点:目前SEAL仅适用于完全可观测的状态,针对部分观测状态下效果还有待优化,存在一定的不稳定现象需要进一步提高。对于大规模真实场景中的应用还需考虑模型扩展性等问题。

2024-10-05

大模型在线长文本处理与角色强化学习优化LLM部署

本文介绍了一种名为'Online Long-Context Processing(OLP)'的新范式以及一个自动分配不同大模型于最优位置的角色强化学习(Role-RL)框架。研究针对无限长度媒体流转录本的数据实时抽取并分类难题进行了创新解决方法的探讨,在直播电商等应用场景下表现优越。 面向具有一定深度学习理论和实际工程经验的专业人士 旨在处理如直播视频或新闻的无限长度语境的实时处理问题,尤其适用于电商直播脚本、自动新闻报道以及其他需要即时响应与高效率归纳的内容环境中。 此外强调了通过强化学习进行LLM选择管理的优势:节约成本、提高响应质量及速度。

2024-10-05

大模型响应嵌入增强大型语言模型的人类偏好对齐

内容概要:本文提出了一种新型方法来提高直接偏好评价(DPO)的数据选择效率,在大规模语言模型对人类偏好的对齐过程中减少标签错误并节省人工成本。文中研究了从模型中提取的句子嵌入,将高相关性和低相关性的文本对用于训练对比数据集中发现的方法能够有效地进行对齐训练,并减少了噪声标签的影响,从而提高了模型的安全性与有用性。实验表明,选取最不相似的回答比随机或者最相似的回答能取得更高效地效果,可以大幅减少注释工作的量。另外,通过聚类得到质心的方法也显示出了良好的结果。 适合人群:自然语言处理、机器学习、大规模语言模型对齐的相关研究人员。 使用场景及目标:用于优化现有大规模语言模型(如LLM),让它们的响应更加贴近人类的期望标准并减少不当内容的生成。 使用方法建议:应用提出的挑选最不相关响应对的技巧去提升现有基于直接偏好优化法(Direct Preference Optimization,简称 DPO)的大规模语言模型对齐的效率,以此节约大量标记时间同时保持甚至提升质量

2024-10-05

MaskLLM:大型语言模型的端到端可学习半结构化稀疏性方法

内容概要:本文提出了MaskLLM,一种用于大规模语言模型(LLM)端到端可学习的半结构化稀疏性方法,旨在减少推理阶段的计算开销。MaskLLM采用随机分布建模的方式建立N:M稀疏模式掩模,并使用变分采样技巧来学习最佳掩模配置,使得这种方法在不同任务和域上具有出色的性能和适应能力,如在WikiText基准测试上显著超越先前的方法。实验展示了从2种大规模数据集进行稀疏性学习的有效性和优势。MaskLLM能够直接训练出高效而精准的稀疏语言模型。 适合人群:对深度学习和压缩感兴趣的研究员与从业者、自然语言处理研究团队、专注于模型优化与算力节约的企业实验室等。 使用场景及目标:①适用于大规模语言模型的参数剪枝;②降低模型存储占用与计算负担;③提升特定下游任务效果。 其他说明:文中还探讨了学习好的LLM稀疏掩膜时关键因素,例如引入预处理增强训练效果;适当调整剩余权重维持质量。

2024-10-05

大规模可指导语言模型随着规模扩大可靠性降低的研究

内容概要:本论文研究了大型语言模型(Large Language Models, LLM)在其规模不断扩展与优化的过程中变得越来越不靠谱这一现象。研究表明对于人类简单的任务对模型同样容易完成但大规模、精心调校后的语言模型并未确保这些低难度的任务不出错或者能够由人工监督指出错误的情况。此外,早期的模型常避免用户的提问,但是经过扩展和定制后这类模型往往给出看起来合理实际上却是错误的答案更为常见。 适合人群:研究人员、NLP工程师和技术专家。 使用场景及目标:帮助理解当前主流语言模型发展趋势下的潜在不足之处,并推动新的模型开发思路。 其他说明:文中通过对几种不同的语言模型家族及其版本进行了实验来验证这些发现并讨论了未来改进方向。

2024-10-05

大模型利用多样性精选大语言模型预训练中重要数据的选择算法

在大规模可用训练语料库中,数据选择对于大型语言模型(LLM)的预训练至关重要。研究人员正在探索使用数据影响力来衡量数据实例的重要性,即高影响力分数表明将该实例纳入训练集可能会提高模型性能。然而,这种方法存在几个限制:(1) 计算所有可用数据的影响力耗时;(2) 选择的数据实例不够多样化,可能会阻碍预训练模型有效泛化到各种下游任务。本文介绍了Quad方法,这是一种同时考虑质量和多样性的数据选择方法,通过使用数据影响力实现最先进的预训练结果。

2024-10-05

GRAPHIC图表示例检索模型用于多步推理任务

内容概要:本文提出了GRAPHIC(一种基于图形的语境化例子检索模型),专门应用于多步骤推理任务,利用贝叶斯网络和个性化PageRank机制有效筛选高质量实例,从而增强大型语言模型在这种复杂推理情景下的表现力。通过对四大基准测试集实验验证了方法的有效性和效率性,在多个推理类型上表现出超越目前主流技术和传统训练方式的优势,尤其是在数学与逻辑推理方面有着尤为出色的改善,同时也揭示了不对称检索对于改进当前同类别技术路线的价值。 适合人群:从事自然语言处理领域、对机器学习特别是文本分析与推理优化感兴趣的研究员和工程技术人员。 使用场景及目标:适用于涉及多步骤推理的机器解答提高,尤其是需要精准选择语境范例进行强化的大规模语言建模应用情境,目标在于提供更为精准有效的语境实例支持以及进一步优化模型理解能力和解决方案质量。 其他说明:该研究不仅提供了优于现有方案的选择实例的新途径,还在表征与解释推理流程的方式上带来了创新,有助于深入探讨大规模语言模型如何解决多步逻辑问题,为提升系统性能开辟了一种全新的方向。

2024-10-05

评估与调优检索增强语言模型生成带准确引用的回答

内容概要:本文介绍了一种评估检索增强生成(RAG)系统性能的新方法,重点在于正确引用答案来源的文献的能力上。首先介绍了名为RAGE的评价工具来评估现有大型语言模型识别相关资料源的效果,并展示了不同模型在此项任务上的表现参差不齐。然后利用数据集和引文评估指标对小规模开放权重的模型进行细粒度训练,显著提升它们的表现。此外,文中详述了通过监督调整以及强化学习中的近邻策略优化(PPO)技术来进行优化的具体步骤,以此改善引文质量,使得小型模型能接近甚至赶超那些大型的语言模型的表现。 适用人群:自然语言处理领域的研究人员和技术从业人员,尤其是在研究基于检索增强生成系统的开发者。 使用场景及目标:用于评测语言模型在回答时能否精确并准确地提供参考资料,并且能够用来对模型的引用准确性进行改进。这种研究有助于提高自动文本生成功能的透明性和可靠性。 其他说明:尽管实验显示模型的改进,但未来的研究仍需要更多元的数据集和综合考量多种评估因素,比如流畅度、忠实于原文以及信息整合等方面,以形成更为完整的RAG系统评测框架。

2024-10-05

动态宽度投机波束解码提升大规模语言模型推理效率

本文提出了一种新的集成投机解码与波束采样的方法 - 动态宽度投机波束解码(DSBD),旨在解决大型语言模型(LLM)推理过程中速度慢和计算成本高的问题。主要内容围绕四个挑战展开并提出了相应的创新性解决方案,以高效验证多个候选序列并在维持准确性的同时优化效率。实验证明相比传统波束采样方法,在不牺牲下游任务性能的情况下实现了更高的运行效率与更低能耗表现,对于加速推导过程有显著贡献。适用于从事机器学习模型优化、高性能计算以及自然语言处理等领域工作的研究人员。 适合人群:从事机器学习、大规模语言模型推理的研究人员和高级工程人员。 主要应用场景为加速训练或者部署大型语言模型时减少资源消耗同时保持良好质量输出。特别适用于需要快速迭代并提高推理效率的任务环境中,比如文本生成、问答系统等领域。 建议深入了解本方法的设计理念和技术细节,以便能够将其应用于具体的实际应用场合,并评估改进前后的效果。

2024-10-05

小规模模型多领域文本生成的知识扩展方法研究

内容概要:本文探讨了利用小型语言模型进行跨领域(故事和食谱)内容生成所面临的挑战及解决方案。实验结果显示,对于独立数据集(如儿童简短故事或烹饪菜谱),专用的小型模型可以产生高质量的文字,而定制化的分词器则进一步提升了输出的质量。但是,在尝试将一个模型训练到两个不同的领域的过程中遇到了显著障碍——无论采用Low-Rank Adaptation还是标准调整都无法防止模型出现灾难性的遗忘问题。为解决这个问题,作者最终引入了一种基于冻结部分网络层并增加新的参数的方法来进行知识扩增的创新技术,从而成功让单个小尺度模型既能产出连贯的故事又能提供精确有序的做法。 适用人群:自然语言处理研究人员与从业者,尤其是对小模型高效多领域应用有兴趣的人群。 使用场景及目标:用于研究和构建能在不同但又彼此相对独立的业务场景(如创意写作平台和饮食建议软件)下生成合适的内容的小型模型。 本文通过对两种不同类型的任务上知识保持的研究,提供了有效对抗模型忘记之前学过的知识的办法。同时也证明即使是算力有限的情况也有可行的路径使NLP模型具备多个领域能力,这对推动语言生成技术走向更加经济高效的未来方向至关重要。

2024-10-05

大规模语言模型在游戏环境中的应用探索与智能代理行为控制研究

内容概要:本文探讨了将大型语言模型(如GPT-4)融入游戏环境中进行智能代理人(agents)的行为控制的方法。具体来说,通过对简化迷宫和复杂障碍塔两个不同环境下LTM配置的各种模型评估,在实时交互游戏中展示了代理人的导航能力和解谜技能,并着重于解决迷宫任务,实验结果显示基于LLM尤其是使用GPT-4架构创建的代理人在这些方面展示出了有希望的表现能力并优于其它方式。研究成果为更好地利用先进LLM提高现代互动游戏中人物角色真实感和响应效率提供了一个有价值的切入点和可行思路。 适用人群:机器学习硕士及以上水平的研究人员和开发人员、对强化学习感兴趣的学术从业者。 使用场景及目标:探究利用大规模预训练模型在实时环境中驱动游戏角色的可行性及其实际表现情况,旨在优化虚拟角色的认知推理性能与决策效率。 其他说明:项目涵盖了对多种LLM体系结构的设计对比测试,并针对迷宫求解、路径寻找等功能提出改进方案。同时关注到了在实施过程中存在的计算开销和系统适应度问题,对于未来开发更为智能的游戏角色提供指导性的经验借鉴。

2024-10-05

CodePMP:一种基于大规模代码预训练偏好模型提升大型语言模型推理能力的方法

主要内容概要:本文介绍了一种名为CodePMP的技术,利用公开源代码自动生成的大规模偏好对来提高大型语言模型(LLMs)在逻辑与数学推理任务方面的表现,有效地克服了优质人类反馈数据不足的问题并展示了CodePMP相对于直接微调方法显著提升了奖励模型的能力;同时提供了详细的实验设置与对比测试,验证了该方法的有效性和通用性。 适合人群:研究人员、工程师和技术开发者。 使用场景及目标:研究、改善并优化语言模型的推理性能,特别是在有限的高质量偏好数量情况下进行有效强化。 其他说明:论文详细记录了该方案的设计背景、流程步骤、以及不同大小的数据集与模型的评估标准与成果比较。此外还介绍了对未来工作的展望和潜在方向,如利用代码数据提高自生成奖励模型样本效能的GenPMP等新尝试。

2024-10-05

【大模型-多模态】M2PT:多模态提示调优提升零样本指令学习性能

本文介绍了M2PT,一种新的用于提升大型多模态语言模型(MLLMs)进行零样本指令学习能力的框架。主要优势有三:将视觉和文本提示有效融入图像编码器与语言处理器中;跨模态互动强化了不同视角的理解协同;相比于传统的fine-tuning方法,大大减少训练参数的同时维持了优异的表现力。实验部分基于多种多模态评估基准展示了优越的效能并提供了详细的行为分析以及失败案例研究。此外,在附录部分探讨更多实例分析,证明了提示的有效性以及本方法的效果。 适合人群:对深度学习尤其是语言模型及其应用感兴趣的机器学习研究者和从业者。 使用场景及目标:旨在为自然语言处理和计算机视觉领域的开发者提供高效的工具,在各种任务上改进模型的迁移学习能力和泛化水平。同时也为希望探究跨模态融合的研究团队提供了有力的新思路。 进一步探索方向:研究者还可以考虑整合局部搜索网络来自动优化提示的组合方式,并增强模型对于小对象识别的能力及区分细微差异概念的对象类别,从而在现实世界的问题处理中有更好的表现。

2024-10-05

【大模型-多模态】复杂视觉推理任务中利用多模态增强大规模语言模型能力的方法研究

内容概要:这篇论文提出了一种称为CVR-LLM的新方法来解决复杂的视觉推理任务。该方法旨在提升大型语言模型(LLMs)与视觉语言模型(VLMs)结合进行多模态复杂视觉推理任务的能力,具体来说,在视觉感知方面应用了详细自适应图像描述的推断过程,并利用大规模语言模型进行更精确地预测。除此之外,该方法还引入了一个新比较链技术来自动评估复杂概念的效果。实验结果表明CVR-LLM模型比以前最先进的模型在多种复杂视觉推理场景下表现优异。 适用人群:计算机科学专业的学术研究者以及机器视觉相关领域的工业研究人员。 使用场景及目标:用于复杂场景下的视觉理解任务。比如视觉常识推理、合成图片解释及幽默感解析等问题。目标在于提供先进的工具以帮助语言理解和图像识别相互协作以获得更深入的认识。 其他:这项创新的研究成果对未来的模型发展提供了新的方向,并在多个数据集上取得了最好的结果,证明了它对于提高视觉推理性能的有效性及其独特贡献。

2024-10-05

高保真对比语言状态预训练(CLSP)方法用于智能体状态表示

内容概要:本文提出了一种新的High-Fidelity Contrastive Language-State Pre-training(CLSP)框架来应对多模态学习中状态表示不足的问题。这一方法结合分类预训练任务以及利用随机傅里叶特征增强后的对比学习,有效提高强化学习导航任务及多模态大模型的状态理解和表征精度。 适用人群:适用于研究人员及从业者,尤其对深度强化学习及其在多模态模型中的应用感兴趣的人群。 使用场景及目标:本研究提供了一个通用解决方案,在减少所需数据量的同时加快了强化学习的速度并提升了最终表现值;同时提高了跨模态理解任务的表现力。可用于多种复杂任务环境中需要进行高效、精确的状态与动作决策的情况。 其他说明:本文展示了CLSP的有效性和优越性能,证明其不仅能够提高基于语言指导的行为一致性,在实际游戏测试环境下还有显著的应用效果。

2024-10-05

因子分解机在稀疏数据上超越支持向量机的应用介绍

本文引入了因子分解机(Factorization Machines, FM),它是兼具支持向量机通用性和因式分解模型优点的新一代预测模型。作者Steffen Rendle通过对稀疏数据的高效建模能力,展示了这种机器学习方法在高度稀疏问题(如推荐系统)领域的潜力及其线性计算复杂度带来的优化便利。 适合从事数据分析与机器学习的研发工作者和技术爱好者。 应用场景主要针对涉及高维稀疏特征的数据预测任务,具体可以用于分类、回归以及排序等场景的目标预测。 由于其灵活性强的特点,在不同的应用情境下能够方便地进行配置并适应多种类型的输入数据结构

2024-10-05

大学生实验报告常用模板

一份超实用的实验报告模板,基本满足日常实验使用需求

2024-09-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除