- 博客(151)
- 资源 (28)
- 收藏
- 关注
原创 AI教母李飞飞2025开年之作-Agent AI全文翻译
多模态人工智能系统很可能成为我们日常生活中的普遍存在。使这些系统更具交互性的一个有希望的方法是将它们体现为物理和虚拟环境中的代理。目前,系统利用现有的基础模型作为创建具身代理的基本构建块。将代理嵌入到此类环境中,有利于模型处理和解释视觉和上下文数据的能力,这对创建更复杂且上下文感知的人工智能系统至关重要。例如,能够感知用户动作、人类行为、环境物体、音频表达和场景集体情感的系统,可以用于告知和指导代理在给定环境中的响应。
2025-01-19 11:05:06
4940
原创 Python与PyTorch的浅拷贝与深拷贝
在python中,x=something,这样的赋值操作,准确的理解是:给存储something建立一个索引x(即存储地址),x通过访问something的存储内容,获得something的值。.clone()是深拷贝,创建新的存储地址,而不是引用保存旧的tensor,在梯度回传的时候,clone()充当中间变量,会将梯度传给源张量进行叠加,但是本身不保存其grad,值为None..Tensor和.tensor是深拷贝,在内存中创建一个额外的数据副本,不共享内存,所以不受数组改变的影响。
2025-01-17 20:53:31
687
原创 【大语言模型】ACL2024论文-38 从信息瓶颈视角有效过滤检索增强生成中的噪声
从信息瓶颈视角有效过滤检索增强生成中的噪声概览本文旨在解决检索增强生成(Retrieval-Augmented Generation, RAG)任务中面对现实世界噪声数据时的挑战。尽管RAG结合了大型语言模型(LLMs)和从广泛语料库中检索到的相关信息,但在处理噪声数据时仍面临困难。现有的解决方案是训练一个过滤模块来寻找相关内容,但这种方法在噪声压缩方面效果不佳。
2025-01-16 18:48:57
1367
原创 【大语言模型】ACL2024论文-37 交互式文本到图像检索与大型语言模型:一种即插即用的方法
和留下您的评论,我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解。如果您对我的博客内容感兴趣,欢迎三连击 (
2025-01-16 18:42:33
972
原创 【大语言模型】DeepSeek与Kimi对论文内容理解的简单对比
近期国内 AI领域,Kimi与DeepSeek都在大力投入,这里对Kimi与DeepSeek的做简要的对比分析,包括技术方向、产品形态、用户市场和未来潜力。本文介绍了DeepSeek LLM项目,旨在通过研究扩展定律(Scaling Laws)来推动开源大语言模型(LLM)的发展。文章详细探讨了在7B和67B两种常见开源配置下,如何通过扩展定律优化模型的训练和性能。
2024-12-30 15:26:41
16038
原创 DeepSeek LLM通过长期主义扩展开源语言模型
开源大型语言模型 (LLM) 的快速发展令人惊叹。然而,先前文献中描述的扩展定律得出了不同的结论,这给扩展 LLM 蒙上了一层阴影。我们深入研究了扩展定律,并提出了我们独特的发现,这些发现有助于在两种广泛使用的开源配置(7B 和 67B)中扩展大型模型。在扩展定律的指导下,我们推出了 DeepSeek LLM,这是一个致力于从长期角度推动开源语言模型发展的项目。为了支持预训练阶段,我们开发了一个数据集,该数据集目前包含 2 万亿个符元,并且正在不断扩展。
2024-12-28 22:31:04
2271
原创 DeepSeek-V2:强大、经济且高效的专家混合语言模型
我们提出了 DeepSeek-V2,一种强大的专家混合 (MoE) 语言模型,其特点是经济的训练和高效的推理。它总共包括236B个参数,其中每个词符激活21B个参数,并支持128K Token 的上下文长度。DeepSeek-V2采用多头潜在注意力(MLA)和DeepSeekMoE等创新架构。MLA 通过将键值 (KV) 缓存显着压缩为潜在向量来保证高效推理,而 DeepSeekMoE 则可以通过稀疏计算以经济的成本训练强大的模型。
2024-12-28 22:10:55
4611
原创 【大语言模型】ACL2024论文-36 利用NLI和ChatGPT及编码簿知识进行零样本政治关系分类
本研究探讨了如何不依赖大量标注数据,通过利用现有标注编码簿中的专家知识,实现政治关系分类的零样本学习方法。研究评估了先进的ChatGPT(GPT-3.5/4)和基于自然语言推理(NLI)的模型ZSP的性能。ChatGPT使用编码簿的标记摘要作为提示,而ZSP将分类任务分解为上下文、事件模式和类别消歧,以提炼特定任务的假设。这种分解增强了可解释性、效率和对模式变化的适应性。实验揭示了ChatGPT的优势和局限性,并关键地显示了ZSP在字典基础上的方法和一些监督模型中的优越性。
2024-12-26 08:16:54
943
原创 【大语言模型】ACL2024论文-35 WAV2GLOSS:从语音生成插值注解文本
本文提出了一个名为WAV2GLOSS的任务,旨在自动从语音中提取插值注解文本(IGT),这是一种对语言文档和资源创建非常重要的语言学注释形式。IGT通常包括四个部分:(1) 转录,(2) 形态分割,(3) 词义解释,以及(4) 翻译成主要语言。作者介绍了第一个涵盖37种语言的标准格式数据集FIELDWORK,并提供了训练/开发/测试拆分。研究比较了端到端和级联的WAV2GLOSS方法,并提供了基于知名语音和自然语言处理模型的基准,为未来的研究奠定了基础。
2024-12-25 08:05:05
1467
原创 【大语言模型】ACL2024论文-34 你的模型能区分否定和隐含意义吗?通过意图编码器揭开挑战
本文探讨了在对话系统中,意图分类和意图聚类任务中使用的嵌入模型在理解语义方面的挑战,特别是在处理否定和隐含意义这两个在现实世界对话系统中至关重要的语义概念时。作者提出了一个意图语义工具包,通过三个任务——意图分类、意图聚类和一个新颖的三元组任务——来全面评估意图嵌入模型。研究发现当前的嵌入模型在这些概念的语义理解上表现不佳。为了解决这个问题,文章提出了一种预训练方法,通过利用自回归模型生成的数据和对比损失项来提高嵌入模型的语义理解能力。
2024-12-25 08:01:56
1029
原创 【电商搜索】文档的信息论生成聚类
实验结果表明,GC方法在多个数据集上取得了优于现有聚类方法的性能,尤其在生成式文档检索(Generative Document Retrieval, GDR)应用中,显著提高了检索准确率。文档聚类方面,传统方法依赖于文档的向量表示,而近期的研究开始探索预训练模型在聚类中的应用。实验设置包括在四个文档聚类数据集上的评估,以及在生成式文档检索中的应用。GC方法在所有数据集上均取得了优于现有方法的性能,尤其在MS Marco Lite数据集上,GC方法在检索准确率上取得了高达36%的改进。
2024-12-23 22:59:15
1372
原创 【电商搜索】CRM: 具有可控条件的检索模型
本文提出了一种新型的检索模型——可控检索模型(CRM),旨在通过将回归信息作为条件特征整合到双塔检索范式中,增强检索阶段与排名阶段之间的一致性,并提升检索模型的能力。通过实际的A/B测试验证了CRM的有效性,并展示了其在快手短视频推荐系统中的成功部署,该系统服务于超过4亿用户。
2024-12-23 22:54:01
864
原创 【电商推荐】平衡效率与效果:一种优化点击率预测的LLM融合方法
本文探讨了在线广告中点击率(CTR)预测的重要性,强调了语义信息在塑造用户决策和提高CTR效果中的关键作用。作者提出了一种新颖的方法,利用大型语言模型(LLMs)的全面世界知识能力,端到端地建模深度语义信息。提出的LLM融合CTR预测框架(Multi-level Deep Semantic Information Infused CTR model via Distillation, MSD)旨在通过利用LLMs提取和蒸馏关键信息到更小、更高效的模型中,实现无缝的端到端训练和推理。
2024-12-22 20:30:05
833
原创 【电商推荐】单个注意力层能学到什么?通过随机特征的视角进行研究
本文对单个多头注意力层的学习和泛化能力进行了严格的理论研究。注意力层是Transformer架构的核心构建块,在现代人工智能中取得了重大突破。文章考虑了随机特征设置,其中注意力层具有大量头,随机采样的冻结查询和键矩阵,以及可训练的值矩阵。研究表明,这种随机特征注意力层能够表达广泛的目标函数,这些函数对键向量是排列不变的。文章进一步为使用有限头数的随机特征注意力学习这些目标函数提供了量化的超额风险界限。
2024-12-22 20:24:28
1043
原创 【电商推荐】全文空间反事实学习:调整、分析属性和工业应用
本文针对构建有效推荐系统中的一个基本研究问题——点击后转化率(CVR)估计,长期受到数据稀疏性和样本选择偏差问题的困扰。为了缓解数据稀疏性问题,基于整个空间的多任务模型通过利用用户行为序列(曝光→点击→转化)构建辅助学习任务。然而,这些方法仍然存在两个主要缺陷:(1)内在估计偏差(IEB),即CVR估计值本质上大于实际值;(2)错误独立先验(FIP),即可能忽视了从点击到点击后转化的因果关系。
2024-12-22 20:20:52
981
原创 【电商推荐】 推荐系统中的犹豫与容忍度
本文探讨了推荐系统中用户交互的复杂性,特别是用户在面对推荐内容时的犹豫行为及其对用户体验的影响。通过大规模调查,研究者们发现犹豫不仅普遍存在,而且对用户体验有着深远的影响。当用户在他们最终不感兴趣的内容上花费额外时间时,可能会导致负面情绪,这种现象被称为容忍。调查结果显示,容忍行为通常在犹豫之后出现,并可能侵蚀对平台的信任、满意度和长期忠诚度。研究者们识别了表明容忍行为的信号,并分析了来自电子商务和短视频平台的数据集,发现容忍行为的增加与用户活动减少之间存在强相关性。
2024-12-22 20:11:06
901
原创 计算机前沿技术-人工智能算法-大语言模型-最新研究进 2024-12-22
本文介绍了FaultExplainer,一个基于大型语言模型(LLM)的自然语言系统,用于故障检测、诊断和解释。该系统集成了主成分分析(PCA)和T2统计量,并结合过程描述,提供基于地面的故障解释。系统还提供了一个用于实时监控和用户友好交互的Web界面,并展示了在诊断未见过的故障时的合理性能。
2024-12-22 17:12:51
1263
原创 【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱:通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧
大型语言模型(LLMs)在常识任务上表现出色,但它们也面临着来自不安全提示的威胁。现有的检测不安全提示的方法主要依赖在线内容审核 API 或微调过的 LLMs,这些策略通常需要大量的数据收集和资源密集型的训练过程。本研究提出了 GradSafe,一种通过检查 LLMs 中安全关键参数的梯度来有效检测不安全提示的方法。我们的方法基于一个关键观察:不安全提示与遵从响应(如“Sure”)配对时,LLM 的损失梯度在某些安全关键参数上表现出相似的模式,而安全提示则导致明显不同的梯度模式。
2024-12-21 17:03:40
1347
原创 【大语言模型】ACL2024论文-32 GradSafe: 通过安全关键梯度分析检测大型语言模型的不安全提示
大型语言模型(LLMs)面临着来自不安全提示的威胁。现有的检测不安全提示的方法主要是在线内容审核API或微调过的LLMs。然而,这些策略通常需要大量的数据收集和资源密集型的培训过程。在本研究中,我们提出了GradSafe,它通过审查LLMs中安全关键参数的梯度有效地检测不安全提示。我们的方法基于一个关键的观察:不安全提示与遵从响应(如“Sure”)配对时,LLM的损失梯度在某些安全关键参数上表现出相似的模式。相比之下,安全提示导致明显不同的梯度模式。
2024-12-21 16:57:33
1096
原创 【大语言模型】ACL2024论文-31 每个答案都很重要:用概率度量评估常识
大型语言模型在常识任务上表现出了令人印象深刻的性能,但这些任务通常以多项选择题的形式提出,允许模型利用系统性偏见。常识本身也是概率性的,有多个正确答案。例如,“烧开水”的目的可能是泡茶、烹饪,也可能是杀菌。现有任务没有捕捉到常识的概率性质。因此,我们提出了一种新的生成性任务——常识框架补全(CFC),通过多个开放式生成来评估常识。我们还提出了一种与人类判断强烈相关的概率评估方法。人类在我们的数据集上大幅超越了强大的语言模型基线,表明这种方法既是对机器常识的挑战性评估,也是有用的评估。
2024-12-21 16:37:54
650
原创 【大语言模型】ACL2024论文-30 探索语言模型在文本分类中的伪相关性:概念层面的分析
本文研究了语言模型(LMs)在文本分类任务中由于训练数据中不平衡的标签分布或上下文学习(ICL)示例而产生的伪相关性问题。以往的研究主要集中在单词、短语和句法特征上,而忽略了概念层面,这通常是由于缺乏概念标签和难以识别输入文本中的概念内容。本文的主要贡献有两个:首先,我们使用ChatGPT为文本分配概念标签,评估模型在细调和ICL测试数据中的概念偏差;其次,我们引入了一种数据重平衡技术,通过结合ChatGPT生成的反事实数据,平衡标签分布,减轻伪相关性。
2024-12-21 16:31:48
1581
原创 【大语言模型】ACL2024论文-29 答案即所需:通过回答问题实现指令跟随的文本嵌入
本研究旨在构建一个能够根据用户指令捕捉文本特征的文本嵌入模型。以往的方法未能提供具体的解决方案来实现用户导向的嵌入。本文提出了一个新的视角,将指令视为关于输入文本的问题,并编码预期答案以获得相应的表示。我们提出的INBEDDER模型通过在抽象式问答任务上微调语言模型来实现这一理念,并在大型语言模型(LLMs)和较小的编码器基础语言模型上展示了显著改善的指令跟随能力。此外,我们通过对相同语料库应用不同指令进行聚类分析的定性分析,展示了模型的高可解释性。
2024-12-21 16:22:21
1461
原创 【大语言模型】ACL2024论文-28 TTM-RE: 增强记忆的文档级关系抽取
本文提出了TTM-RE,一种新颖的方法,它通过集成可训练的记忆模块(Token Turing Machine)和鲁棒的损失函数来解决文档级关系抽取问题。这种方法特别针对大规模、噪声多的训练数据,通过实验表明,TTM-RE在ReDocRED基准数据集上实现了最先进的性能,绝对F1分数提高了超过3%。
2024-12-21 16:18:57
1331
原创 【大语言模型】ACL2024论文-27 Mementos:一个全面的多模态大型语言模型在图像序列推理上的基准测试
本文介绍了Mementos,一个旨在评估多模态大型语言模型(MLLMs)在图像序列上的顺序推理能力的新型基准测试。Mementos包含了4761个不同长度的多样化图像序列,并采用GPT-4辅助的方法来评估MLLMs的推理性能。通过对九个最新的MLLMs(包括GPT4V和Gemini)的细致评估,研究发现这些模型在准确描述给定图像序列的动态信息时存在困难,常常导致对象及其行为的幻觉/误表示。
2024-12-16 22:26:45
1203
原创 【大语言模型】ACL2024论文-26 在支持数据存在的情况下进行框架构建:以美国经济新闻为例研究
本文提出了一个计算框架,用于分析在存在支持数据的情况下的新闻编辑选择。研究聚焦于经济新闻,因为经济指标的报道提供了一个相对简单的方法来确定不同出版物的选择和框架。通过这些指标的值,我们可以了解经济的实际状况,以及出版物如何选择报道它。研究定义了框架预测作为一系列相互依赖的任务。在文章层面,我们学习识别对经济总体状况的报道立场。然后,对于文章中报告的每个数值量,我们学习识别它是否对应于经济指标,以及它是以积极还是消极的方式被报道。通过跟踪2015年至2023年间六家美国出版商的头条文章,我们进行了分析。
2024-12-15 12:50:26
1274
原创 【深度模型】OpenVoice: 多才多艺的即时语音克隆
OpenVoice是一种多才多艺的即时语音克隆方法,它只需要来自参考说话者的短音频剪辑就能复制他们的声音,并在多种语言中生成语音。这项技术在语音风格控制和零样本跨语言语音克隆方面取得了显著进展。与传统方法相比,OpenVoice在计算效率上也有显著提升,成本远低于市面上的API,同时提供了更好的性能。为了推动该领域的研究,研究者们已经将源代码和训练好的模型公开,并在演示网站上提供了定性结果。
2024-12-15 12:35:00
1250
原创 【大语言模型】ACL2024论文-25 微妙偏见需要更微妙的衡量:双重指标评估大型语言模型中的代表性和亲和力偏见
本研究关注大型语言模型(LLMs)中常被忽视的微妙偏见,这些偏见虽不明显,但可能显著影响模型输出,使其倾向于特定的社会叙事。研究提出了两种新的衡量指标:代表性偏见得分(RBS)和亲和力偏见得分(ABS),并介绍了面向创造力的生成套件(CoGS),这是一个包含开放式任务的集合,如短篇故事写作和诗歌创作,旨在检测这些微妙偏见。分析发现,主流LLMs存在明显的代表性偏见,倾向于与白人、异性恋和男性相关的身份。亲和力偏见的调查揭示了每个模型内独特的评估模式,类似于“偏见指纹”。
2024-12-12 08:03:18
1667
原创 【大语言模型】ACL2024论文-24 图像化歧义:Winograd Schema 挑战的视觉转变
本文介绍了 WINOVIS,这是一个新颖的数据集,旨在探究文本到图像模型在多模态情境中对代词消歧的能力。研究者利用 GPT-4 生成提示,并采用扩散注意力归因图(DAAM)进行热图分析,提出了一个新的评估框架,将模型在代词消歧方面的能力与其他视觉处理挑战区分开来。通过评估不同版本的模型,研究发现即使最先进的模型如 Stable Diffusion 2.0 在 WINOVIS 上的精确度仅为 56.7%,仅略高于随机猜测,显示出从以往版本到当前的微小进步。
2024-12-03 07:59:29
1403
原创 【大语言模型】ACL2024论文-23 检索增强的多语言知识编辑
本文提出了一种名为检索增强多语言知识编辑器(ReMaKE)的方法,旨在更新大型语言模型(LLMs)中的知识。由于LLMs中的知识经常不正确或过时,且通过微调更新知识计算成本高昂且不可靠,因此知识编辑(KE)作为一种有效且经济的替代方案应运而生。当前的KE研究主要集中在单一语言设置中,通常是英语。ReMaKE通过从多语言知识库检索新知识并与提示串联,实现多语言设置中的模型无关知识编辑。实验结果表明,ReMaKE在多语言环境中的表现超过了基线知识编辑方法,是首个在多语言设置中工作的知识编辑方法。
2024-12-02 08:04:33
1563
原创 【大语言模型】ACL2024论文-22 大型语言模型中的自信心:探究大型语言模型生成回答的自信心与概率一致性
本文探讨了大型语言模型(LLMs)在生成回答时的自信心与概率一致性问题。随着LLMs在各个领域的广泛应用,理解模型自我评估的自信心对于输出的可靠性至关重要。研究者提出了“自信心-概率一致性”概念,将模型内部的自信心(通过token概率量化)与模型在被明确询问时表达的自信心联系起来。通过使用不同的数据集和提示技术,研究者分析了模型内部和表达的自信心之间的一致性。研究发现,OpenAI的GPT-4在多种任务中展现出最强的自信心-概率一致性。这项工作有助于促进LLMs应用中的风险评估,并进一步理解模型的可信度。
2024-11-29 08:11:32
2130
原创 【大语言模型】ACL2024论文-21 通过冗余减少加快视觉条件语言生成的训练
本文介绍了EVLGen,这是一个为视觉条件语言生成模型预训练设计的高效框架,特别适用于计算需求高的场合,并且利用了冻结的预训练大型语言模型(LLMs)。传统的视觉语言预训练(VLP)通常涉及两个阶段的优化过程:第一阶段是资源密集型的,专注于通用视觉-语言表示学习,第二阶段则强调视觉和语言模态之间的端到端对齐。EVLGen通过在训练过程中逐步合并相似的视觉标记,避免了计算密集的第一阶段,同时避免了单阶段训练BLIP-2类型模型时的模型崩溃问题。
2024-11-26 07:57:34
1163
原创 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-05
本文提出了一种利用大型语言模型(LLM)的上下文知识检索(ICKR)能力来改进音素转换(G2P)系统的方法。该方法通过提供更丰富的语义信息来解决G2P映射中的歧义问题,并在Librig2p数据集上取得了显著的性能提升。
2024-11-23 16:09:59
1399
原创 【大语言模型】ACL2024论文-20 SCIMON:面向新颖性的科学启示机器优化
本文探索并增强了神经语言模型生成基于文献的新颖科学方向的能力。传统的基于文献的假设生成工作通常集中在二元链接预测上,这严重限制了假设的表达性,并且没有专注于优化新颖性。本文提出了一种新的设置,模型使用背景上下文(例如问题、实验设置、目标)作为输入,并输出基于文献的自然语言想法。
2024-11-23 15:52:26
1364
原创 【大语言模型】ACL2024论文-19 SportsMetrics: 融合文本和数值数据以理解大型语言模型中的信息融合
本文介绍了SportsMetrics,这是一个旨在评估大型语言模型(LLMs)在数值推理和信息融合能力方面的新基准。通过提供详细的体育比赛逐场描述,挑战LLMs处理新游戏规则、更长的描述、混乱的叙述和分析游戏摘要中的关键统计数据。在NBA和NFL比赛上的广泛实验表明,SportsMetrics能够评估LLMs在这些任务上的性能。
2024-11-21 23:36:33
1445
原创 【大语言模型】ACL2024论文-18 MINPROMPT:基于图的最小提示数据增强用于少样本问答
本文提出了MINPROMPT,一个用于开放域问答(QA)任务的最小数据增强框架,旨在通过近似图算法和无监督问题生成来提高少样本QA的效率和准确性。MINPROMPT通过将原始文本转换为图结构,建立不同事实句子之间的联系,然后应用图算法识别覆盖原始文本中最大部分信息的最小句子集合。基于这些句子生成问答对,并在选定的句子上训练模型以获得最终模型。实验结果表明,MINPROMPT在效率上与基线相比具有可比性或更好的结果,F1分数提高了最多27.5%。
2024-11-21 23:28:40
1034
原创 【大语言模型】ACL2024论文-17 VIDEO-CSR:面向视觉-语言模型的复杂视频摘要创建
本文介绍了一个新的任务和人类标注的数据集Video-CSR(Captioning, Summarization and Retrieval,即标题生成、摘要和检索),旨在评估视觉-语言模型生成真实世界视频剪辑的字幕和摘要的能力。数据集包含4.8K个YouTube视频剪辑,每个视频剪辑时长在20-60秒之间,覆盖广泛的主题和兴趣点。每个视频剪辑对应5个独立标注的字幕(1句话)和摘要(3-10句话)。
2024-11-20 21:19:40
1634
原创 【大语言模型】ACL2024论文-16 基于地图制图的罗马尼亚自然语言推理语料库的新型课程学习方法
本文的主要贡献是介绍了第一个公开的罗马尼亚语自然语言推理(NLI)语料库RoNLI,它包含58K训练句子对和6K验证及测试句子对。这些句子对通过远程监督获取和手动标注得到正确的标签。文章还提出了一种基于数据制图的新型课程学习策略,通过该策略改进了最佳模型。数据集和复现基线的代码已在GitHub上公开。
2024-11-18 23:36:38
1018
原创 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-04
随着大型语言模型(LLMs)的快速发展,它们越来越多地被集成到移动设备中,以提供个性化辅助。这使得LLMs能够调用外部API函数来增强其性能。然而,数据稀缺、无效的问题格式化和灾难性遗忘等挑战阻碍了设备内LLM代理的发展。为了解决这些问题,我们提出了Alopex,一个框架,它使用Fox LLM启用精确的设备内函数调用。Alopex引入了一种基于逻辑的方法来生成高质量的训练数据,并采用了一种新颖的“描述-问题-输出”格式进行微调,减少了函数信息泄露的风险。
2024-11-17 09:50:51
1738
原创 【大语言模型】ACL2024论文-15 大型语言模型中的最佳解释推断
大型语言模型(LLMs)在现实世界的应用中取得了成功,但它们背后的解释过程仍然不为人所充分理解。本文提出了一个受哲学上最佳解释推断(IBE)启发的框架IBE-Eval,以推进对LLMs解释的理解和评估。IBE-Eval通过结合明确的逻辑和语言特征(包括一致性、简洁性、连贯性和不确定性)来估计自然语言解释的可信度。在因果问题回答(CQA)上进行了广泛的实验,其中IBE-Eval的任务是在由LLMs(例如GPT 3.5和Llama 2)生成的竞争性解释中选择最可信的因果解释。
2024-11-17 09:35:18
1549
原创 【大语言模型】ACL2024论文-14 任务:不可能的语言模型
本文探讨了大型语言模型(LLMs)是否能够学习人类认为可能和不可能的语言。尽管有观点认为LLMs无法区分这两者,但目前缺乏实验证据支持这一论断。研究者们开发了一系列不同复杂度的合成不可能语言,通过系统地改变英语数据的词序和语法规则来设计这些语言。这些语言构成了一个不可能性的连续体,从本质上不可能的语言(例如随机且不可逆的英语单词洗牌)到在语言学中常被认为不可能的语言(尤其是基于词数位置的规则)。
2024-11-16 16:42:32
1152
论文代码-DEAN: 通过去激活耦合神经元来减轻大型语言模型中的公平性与隐私冲突
2024-10-28
DEAN: 通过去激活耦合神经元来减轻大型语言模型中的公平性与隐私冲突
2024-10-28
从直接偏好的角度优化大型语言模型:数据效率的视角
2024-10-28
大型语言模型助力的多代理集成方法,用于高效的电子健康记录数据标注
2024-10-28
大型身体语言模型论文,不错的大语言模型研究工作
2024-10-28
通过字节编码的子词嵌入:在不牺牲准确性和复杂度的情况下获得隐私保护
2024-10-28
通过直接偏好优化对齐代码语言大模型
2024-10-28
Toolken+: 通过重新排名和拒绝选项改进大型语言模型的工具使用
2024-10-26
继续法律预训练和指令微调对大型语言模型在人类定义的法律概念的潜在表示的影响
2024-10-26
整体推理与长文本语境的语言模型:大规模文本数据上的数据库操作基准测试
2024-10-26
DISP-LLM: 大型语言模型的维度无关结构性剪枝
2024-10-26
大型语言模型的公平性悖论
2024-10-26
利用半监督学习改进非点击样本的转化率预测方法
2024-10-12
超越单一音频:推进音频大型语言模型中的多音频处理
2024-10-07
使用多模态大型语言模型(MLLMs)推进交通系统中的目标检测:一项全面回顾和实证测试
2024-10-07
FoodMLLM-JP:利用多模态大型语言模型进行日文食谱生成
2024-10-07
CurricuLLM: 使用大型语言模型自动设计学习复杂机器人技能的教学大纲
2024-10-07
大型语言模型在医学领域摘要任务的评估:一项叙述性综述
2024-10-07
大型语言模型的有害微调攻击与防御:一项综述
2024-10-07
大模型 多模态大型语言模型中的视觉提示:一项综述
2024-10-05
大模型基于指令调整的大规模语言模型进行零样本密集检索的无监督文本表示学习
2024-10-05
大模型基于大型语言模型自动生成图表数据集SynChart的研究与实现
2024-10-05
大模型高效大型语言模型架构搜索与权重重构方法研究
2024-10-05
大模型SEAL:基于大型语言模型增强的层次化模仿学习方法
2024-10-05
大模型在线长文本处理与角色强化学习优化LLM部署
2024-10-05
大模型响应嵌入增强大型语言模型的人类偏好对齐
2024-10-05
MaskLLM:大型语言模型的端到端可学习半结构化稀疏性方法
2024-10-05
大规模可指导语言模型随着规模扩大可靠性降低的研究
2024-10-05
大模型利用多样性精选大语言模型预训练中重要数据的选择算法
2024-10-05
GRAPHIC图表示例检索模型用于多步推理任务
2024-10-05
评估与调优检索增强语言模型生成带准确引用的回答
2024-10-05
动态宽度投机波束解码提升大规模语言模型推理效率
2024-10-05
小规模模型多领域文本生成的知识扩展方法研究
2024-10-05
大规模语言模型在游戏环境中的应用探索与智能代理行为控制研究
2024-10-05
CodePMP:一种基于大规模代码预训练偏好模型提升大型语言模型推理能力的方法
2024-10-05
【大模型-多模态】M2PT:多模态提示调优提升零样本指令学习性能
2024-10-05
【大模型-多模态】复杂视觉推理任务中利用多模态增强大规模语言模型能力的方法研究
2024-10-05
高保真对比语言状态预训练(CLSP)方法用于智能体状态表示
2024-10-05
因子分解机在稀疏数据上超越支持向量机的应用介绍
2024-10-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人