【AI视野·今日NLP 自然语言处理论文速览 第六十三期】Thu, 26 Oct 2023

AI视野·今日CS.NLP 自然语言处理论文速览
Thu, 26 Oct 2023
Totally 89 papers
上期速览✈更多精彩请移步主页

【AI视野·今日NLP 自然语言处理论文速览 第六十三期】Thu, 26 Oct 2023_第1张图片

Daily Computation and Language Papers

LLM-FP4: 4-Bit Floating-Point Quantized Transformers
Authors Shih yang Liu, Zechun Liu, Xijie Huang, Pingcheng Dong, Kwang Ting Cheng
我们提出 LLM FP4,用于以训练后的方式将大型语言模型 LLM 中的权重和激活量化为 4 位浮点值。现有的训练后量化 PTQ 解决方案主要基于整数,并且难以应对低于 8 位的位宽。与整数量化相比,浮点 FP 量化更加灵活,可以更好地处理长尾或钟形分布,并且已成为许多硬件平台的默认选择。 FP量化的特点之一是其性能很大程度上取决于指数位和限幅范围的选择。在这方面,我们通过搜索最佳量化参数构建了强大的 FP PTQ 基线。此外,我们观察到激活分布中存在较高的通道间方差和较低的通道内方差模式,这增加了激活量化的难度。我们认识到这种模式在为不同任务设计的一系列 Transformer 模型中是一致的,例如 LLM、BERT 和 Vision Transformer 模型。为了解决这个问题,我们提出了每通道激活量化,并表明这些额外的缩放因子可以重新参数化为权重的指数偏差,从而产生的成本可以忽略不计。我们的方法首次可以将 LLaMA 13B 中的权重和激活量化为仅 4 位,并在常识零样本推理任务上获得了 63.1 的平均分数,仅比全精度模型低 5.8,显着比之前的技术水平高出 12.7 个点。

Prompt Me Up: Unleashing the Power of Alignments for Multimodal Entity and Relation Extraction
Authors Xuming Hu, Junzhe Chen, Aiwei Liu, Shiao Meng, Lijie Wen, Philip S. Yu
如何更好地从文本中提取实体和关系通过图像和文本的多模态提取获得更多实体和关系信号,并通过图形或层次融合将它们对齐,辅助提取。尽管尝试了各种融合,但之前的作品忽略了许多未标记的图像标题对,例如 NewsCLIPing。本文提出了实体对象和关系图像对齐的创新预训练目标,从图像中提取对象并将其与软伪标签的实体和关系提示对齐。这些标签用作预训练的自监督信号,增强提取实体和关系的能力。对三个数据集的实验表明,与之前的 SOTA 相比,F1 平均提高了 3.41。

Can GPT models Follow Human Summarization Guidelines? Evaluating ChatGPT and GPT-4 for Dialogue Summarization
Authors Yongxin Zhou, Fabien Ringeval, Fran ois Portet
本研究探讨了即时驱动的大型语言模型法学硕士(例如 ChatGPT 和 GPT 4)在遵循人类对话摘要准则方面的能力。实验采用DialogSum英语社交对话和DECODA法语呼叫中心交互,测试各种提示,包括现有文献的提示和人工摘要指南的提示,以及两步提示方法。我们的研究结果表明,GPT 模型通常会生成冗长的摘要,并且偏离人类摘要指南。然而,使用人类指南作为中间步骤显示出了希望,在某些情况下优于直接字长约束提示。结果表明,GPT 模型在摘要中表现出独特的风格倾向。虽然 GPT 输出的 BERTScore 并没有显着下降,表明与人类参考和专门的预训练模型的语义相似性,但 ROUGE 分数揭示了 GPT 生成的和人类书面摘要之间的语法和词汇差异。

Language Agnostic Code Embeddings
Authors Saiteja Utpala, Alex Gu, Pin Yu Chen
最近,代码语言模型在解决各种基本代码理解和生成任务方面取得了显着的进步。然而,该领域缺乏对多语言代码模型的代码嵌入的全面深入的研究和理解。在本文中,我们对多语言代码嵌入进行了全面的研究,重点关注这些嵌入在不同编程语言中的跨语言能力。通过探索实验,我们证明代码嵌入包含两个不同的组件,一个与特定语言的细微差别和语法密切相关,另一个与这些细节无关,主要关注语义。

Improving a Named Entity Recognizer Trained on Noisy Data with a Few Clean Instances
Authors Zhendong Chu, Ruiyi Zhang, Tong Yu, Rajiv Jain, Vlad I Morariu, Jiuxiang Gu, Ani Nenkova
为了实现最先进的性能,我们仍然需要在大规模、高质量的注释数据上训练 NER 模型,这是一项既昂贵又耗时的积累资产。相比之下,现实世界的应用程序通常通过非专家注释者通过众包和外部知识库通过远程监督来求助于大量低质量的标记数据,作为一种具有成本效益的替代方案。然而,这些注释方法会产生嘈杂的标签,进而导致性能显着下降。因此,我们建议在一小部分干净实例的指导下对噪声 NER 数据进行去噪。与主 NER 模型一起,我们训练一个判别器模型并使用其输出来重新校准样本权重。判别器能够通过不同的判别提示来检测跨度错误和类别错误。

Detecting Pretraining Data from Large Language Models
Authors Weijia Shi, Anirudh Ajith, Mengzhou Xia, Yangsibo Huang, Daogao Liu, Terra Blevins, Danqi Chen, Luke Zettlemoyer
尽管大型语言模型法学硕士得到了广泛部署,但用于训练它们的数据却很少公开。鉴于这些数据的规模令人难以置信,高达数万亿个代币,几乎可以肯定它包含潜在有问题的文本,例如受版权保护的材料、个人身份信息以及广泛报告的参考基准的测试数据。然而,我们目前无法知道这些类型的数据包含哪些以及所占的比例。在本文中,我们研究了预训练数据检测问题,在不知道预训练数据的情况下,给定一段文本和对 LLM 的黑盒访问,我们是否可以确定模型是否是在提供的文本上进行训练的。为了方便这项研究,我们引入了一个动态模型基准 WIKIMIA 使用模型训练之前和之后创建的数据来支持黄金真相检测。我们还引入了一种新的检测方法 Min K Prob,该方法基于一个简单的假设:在 LLM 下,未见过的示例可能包含一些概率较低的离群单词,而已见过的示例不太可能包含如此低概率的单词。 Min K Prob 可以在不了解预训练语料库或任何额外训练的情况下应用,这与之前需要在与预训练数据相似的数据上训练参考模型的检测方法不同。此外,我们的实验表明,与之前的方法相比,Min K Prob 在 WIKIMIA 上实现了 7.4 的改进。

The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI
Authors Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng Marnu, Damien Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara, Kartik Perisetla, Xinyi Alexis Wu, Enrico Shippole, Kurt Bollacker, Tongshuang Wu, Luis Villa, Sandy Pentland, Deb Roy, Sara Hooker
在庞大、多样化且记录不一致的数据集上训练语言模型的竞赛引起了人们对从业者面临的法律和道德风险的紧迫担忧。为了纠正这些威胁数据透明度和理解的做法,我们召集法律和机器学习专家进行多学科合作,系统地审核和追踪 1800 个文本数据集。我们开发工具和标准来追踪这些数据集的沿袭,从它们的来源、创建者、一系列许可条件、属性和后续使用。我们的景观分析强调了商业开放数据集与封闭数据集在组成和重点方面的巨大分歧,封闭数据集垄断了重要类别,资源语言较低,更具创造性的任务,主题种类更丰富,更新且更综合的训练数据。这表明在不同许可条件下提供的数据类型之间的分歧日益加深,并对版权和合理使用的管辖法律解释产生了更大的影响。我们还观察到广泛使用的数据集托管站点上的许可证经常出现错误分类,许可证遗漏为 72 个,错误率为 50 个。这表明了错误归因和对最流行数据集的知情使用的危机,推动了最近的许多突破。

DEFT: Data Efficient Fine-Tuning for Large Language Models via Unsupervised Core-Set Selection
Authors Devleena Das, Vivek Khetan
最近的进展使得许多预先训练的语言模型 PLM 变得可用,但是,仍然存在的一个问题是,为下游任务微调 PLM 真正需要多少数据。在这项工作中,我们引入了 DEFT,一种数据高效的微调框架,它利用无监督的核心集选择可最大程度地减少下游任务微调 PLM 所需的数据量。我们展示了 DEFT 框架在文本编辑 LM 背景下的功效,并与最先进的文本编辑模型 CoEDIT 进行比较。

SuperHF: Supervised Iterative Learning from Human Feedback
Authors Gabriel Mukobi, Peter Chatain, Su Fong, Robert Windesheim, Gitta Kutyniok, Kush Bhatia, Silas Alberti
虽然大型语言模型表现出非凡的能力,但它们通常在训练过程中的安全性、与人类价值观的一致性和稳定性方面提出挑战。在这里,我们重点关注两种用于调整这些模型的流行方法:监督微调 SFT 和来自人类反馈的强化学习 RLHF。 SFT 简单而强大,为许多开源模型提供支持,而 RLHF 是一种更复杂的方法,用于 ChatGPT 等顶级模型,但也存在不稳定和容易受到奖励黑客攻击的问题。我们提出了一种新颖的方法,即来自人类反馈 SuperHF 的监督迭代学习,旨在利用这两种方法的优势。我们的假设有两个方面:RLHF 中使用的奖励模型对于有效数据使用和模型泛化至关重要,并且 RLHF 中使用近端策略优化 PPO 可能没有必要,并且可能会导致不稳定问题。 SuperHF 用简单的监督损失和 Kullback Leibler KL 散度先验取代了 PPO。它通过对一批模型输出重复采样并通过在线学习机制中的奖励模型过滤它们来创建自己的训练数据。然后,我们将奖励优化问题分解为三个部分,稳健地优化训练奖励本身,防止奖励黑客利用奖励模型降低模型性能(通过新颖的 METEOR 相似度度量来衡量),并在下游评估中保持良好的性能。我们的实验结果表明,SuperHF 在训练目标上超过了基于 PPO 的 RLHF,可以轻松且有利地在高奖励与低奖励黑客之间进行权衡,改进下游校准,并在我们基于 GPT 4 的定性评估方案上执行相同的操作,同时显着更易于实现

IntenDD: A Unified Contrastive Learning Approach for Intent Detection and Discovery
Authors Bhavuk Singhal, Ashim Gupta, Shivasankaran V P, Amrith Krishna
从对话话语中识别意图构成了面向任务的对话系统的一个组成部分。与意图相关的任务通常被制定为分类任务(其中将话语分类为预定义的类别)或当需要从这些话语中发现新的和先前未知的意图类别时制定为聚类任务。此外,意图分类可以在多类 MC 或多标签 ML 设置中建模。虽然这些任务通常被建模为单独的任务,但我们提出了 IntenDD,这是一种利用共享话语编码主干的统一方法。 IntenDD 使用完全无监督的对比学习策略进行表示学习,其中未标记话语的伪标签是根据其词汇特征生成的。此外,我们还为使用改进吸附的分类任务引入了两步后处理设置。在这里,首先传播训练数据中的残差,然后平滑在转导设置中建模的标签。通过对各种基准数据集的广泛评估,我们发现我们的方法在所有三项任务中始终优于竞争基线。

HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning in Large Language Models
Authors Yinghui He, Yufan Wu, Yilin Jia, Rada Mihalcea, Yulong Chen, Naihao Deng
心智理论 ToM 是推理自己和他人心理状态的能力。 ToM 在智力、语言理解和认知过程的发展中起着至关重要的作用。虽然之前的工作主要集中在一阶和二阶 ToM,但我们探索了高阶 ToM,其中涉及对其他信念的递归推理。我们介绍 HI TOM,一种高阶心理理论基准。我们使用各种大型语言模型法学硕士的实验评估表明,高阶 ToM 任务的性能有所下降,这证明了当前法学硕士的局限性。

PROMINET: Prototype-based Multi-View Network for Interpretable Email Response Prediction
Authors Yuqing Wang, Prashanth Vijayaraghavan, Ehsan Degan
电子邮件是一种广泛使用的商务沟通工具,电子邮件营销已成为企业一种具有成本效益的策略。虽然之前的研究已经考察了影响电子邮件营销绩效的因素,但有限的研究集中在通过考虑电子邮件内容和元数据来理解电子邮件响应行为。本研究提出了一种基于原型的多视图网络 PROMINET,它结合了电子邮件数据中的语义和结构信息。通过利用原型学习,PROMINET 模型生成潜在样本,从而实现可解释的电子邮件响应预测。该模型将学习到的语义和结构样本映射到不同粒度级别(例如文档、句子或短语)的训练数据中观察到的样本。该方法在两个现实世界的电子邮件数据集(安然语料库和内部电子邮件营销语料库)上进行了评估。实验结果表明,PROMINET 模型的性能优于基线模型,在两个数据集上的 F1 分数均提高了 3 倍。此外,该模型通过不同粒度级别的原型提供可解释性,同时保持与不可解释模型相当的性能。学习到的原型还显示出生成建议的潜力,以增强电子邮件文本编辑并提高有效电子邮件响应的可能性。

DISCO: A Large Scale Human Annotated Corpus for Disfluency Correction in Indo-European Languages
Authors Vineet Bhat, Preethi Jyothi, Pushpak Bhattacharyya
不流利纠正 DC 是从口语中删除填充、重复和更正等不流利元素以创建可读和可解释文本的过程。 DC 是在下游语言理解任务进行后续处理之前应用于自动语音识别 ASR 输出的重要后处理步骤。由于缺乏大规模开源数据集,现有的 DC 研究主要集中在英语上。为了实现多语言不流利纠正的目标,我们提供了高质量的人工注释 DC 语料库,涵盖四种重要的印欧语言英语、印地语、德语和法语。我们对所有四种语言的最先进 DC 模型的结果进行了广泛的分析,获得了 97.55 英语、94.29 印地语、95.89 德语和 92.97 法语的 F1 分数。为了证明 DC 对下游任务的优势,我们表明,当与最先进的机器翻译 MT 系统结合使用时,DC 可使 BLEU 分数平均提高 5.65 分。

HANSEN: Human and AI Spoken Text Benchmark for Authorship Analysis
Authors Nafis Irtiza Tripto, Adaku Uchendu, Thai Le, Mattia Setzu, Fosca Giannotti, Dongwon Lee
作者身份分析,也称为风格测定,长期以来一直是自然语言处理 NLP 的一个重要方面。同样,大型语言模型法学硕士的最新进展使得作者分析对于区分人类书写的文本和人工智能生成的文本变得越来越重要。然而,这些作者分析任务主要集中在书面文本上,而不考虑口头文本。因此,我们引入了最大的口语文本基准 HANSEN Human AND ai Spoken tExt beNchmark 。 HANSEN 包括对现有语音数据集和文字记录进行精心管理,同时创建新颖的人工智能生成的口语文本数据集。它总共包含 17 个人类数据集,以及使用 3 个著名法学硕士 ChatGPT、PaLM2 和 Vicuna13B 创建的人工智能生成的口语文本。为了评估和演示 HANSEN 的实用性,我们对人类口语数据集执行作者署名 AA 作者验证 AV,并使用最先进的 SOTA 模型进行人类与人工智能口语文本检测。虽然 SOTA 方法(例如字符 ngram 或基于 Transformer 的模型)在人类口语数据集中与书面数据集表现出相似的 AA AV 性能,但人工智能生成的口语文本检测还有很大的改进空间。

Improving Conversational Recommendation Systems via Bias Analysis and Language-Model-Enhanced Data Augmentation
Authors Xi Wang, Hossein A. Rahmani, Jiqun Liu, Emine Yilmaz
会话推荐系统 CRS 是一个快速发展的研究领域,随着语言建模技术的进步而受到广泛关注。然而,由于其相对新颖性和现有贡献有限,会话推荐的当前状态面临着许多挑战。在这项研究中,我们深入研究了用于开发 CRS 模型的基准数据集,并解决了多轮交互中固有的反馈循环所产生的潜在偏差,包括选择偏差和多种流行偏差变体。通过使用语言模型和数据增强技术,从生成数据的成功中汲取灵感,我们提出了两种新颖的策略,Once Aug 和 PopNudge,以增强模型性能,同时减轻偏差。

Disentangling Extraction and Reasoning in Multi-hop Spatial Reasoning
Authors Roshanak Mirzaee, Parisa Kordjamshidi
文本的空间推理具有挑战性,因为模型不仅需要从文本中提取直接的空间信息,还需要对这些信息进行推理并推断隐含的空间关系。最近的研究强调了即使是大型语言模型在对文本进行空间推理时也会遇到的困难。在本文中,我们探讨了在模型中解开信息提取和推理过程来应对这一挑战的潜在好处。为了探索这一点,我们设计了各种模型来解开符号或神经的提取和推理,并将它们与最先进的 SOTA 基线进行比较,而这些部分没有明确的设计。

SkyMath: Technical Report
Authors Liu Yang, Haihua Yang, Wenjun Cheng, Lei Lin, Chenxia Li, Yifu Chen, Lunan Liu, Jianfei Pan, Tianwen Wei, Biye Li, Liang Zhao, Lijie Wang, Bo Zhu, Guoliang Li, Xuejie Wu, Xilin Luo, Rui Hu
大型语言模型法学硕士在解决各种自然语言处理 NLP 任务(包括数学推理)方面表现出了巨大的潜力。在这项工作中,我们提出了 SkyMath,这是一个具有 130 亿个参数的大型数学语言模型。通过应用自比较微调,我们显着增强了Skywork 13B Base的数学推理能力。

LLM Performance Predictors are good initializers for Architecture Search
Authors Ganesh Jawahar, Muhammad Abdul Mageed, Laks V. S. Lakshmanan, Dujian Ding
大型语言模型法学硕士已成为解决各种 NLP 任务的不可或缺的组成部分。在这项工作中,我们探索了一种使用 LLM 构建性能预测器 PP 模型的新颖用例,该模型在给定特定的深度神经网络架构的情况下,预测其在下游任务上的性能。我们为 LLM 设计 PP 提示,其中包括 i 分配给 LLM 的角色的角色描述、ii LLM 执行性能预测所遵循的指令集、iii 超参数、每个架构特定超参数的定义以及 iv 演示示例架构以及他们的效率指标和从头开始的培训表现。对于机器翻译 MT 任务,我们发现 GPT 4 与我们的 PP 提示 LLM PP 可以预测架构的性能,其平均绝对误差与 SOTA 匹配,并且与 SOTA 性能预测器相比,排名相关系数略有下降。此外,我们表明 LLM PP 的预测可以被蒸馏为小型回归模型 LLM Distill PP 。令人惊讶的是,LLM Distill PP 模型在很大程度上保留了 LLM PP 的性能,并且可以成为性能评估的大量用例的经济高效的替代方案。具体来说,对于神经架构搜索 NAS ,我们提出了一种 NAS HS NAS 的混合搜索算法,该算法使用 LLM Distill PP 进行搜索的初始部分,并利用基线预测器进行搜索的其余部分。

Detection of news written by the ChatGPT through authorship attribution performed by a Bidirectional LSTM model
Authors Amanda Ferrari Iaquinta, Gustavo Voltani von Atzingen
基于大型语言的模型聊天机器人ChatGPT自推出以来就受到了广泛的欢迎,并已在多种情况下使用。这项研究围绕着一种特定情况展开,即ChatGPT被用来制作供大众消费的新闻,从而导致假新闻的制作、错误信息的传播和对新闻来源缺乏信任的便利。意识到这些问题,本研究旨在建立一个人工智能模型,能够对新闻文章进行作者归属,识别由 ChatGPT 撰写的文章。为了实现这一目标,我们组装了一个包含等量人类和 ChatGPT 书面新闻的数据集,并使用不同的自然处理语言技术从中提取特征,这些特征用于训练、验证和测试使用不同技术构建的三个模型。

BabyStories: Can Reinforcement Learning Teach Baby Language Models to Write Better Stories?
Authors Xingmeng Zhao, Tongnian Wang, Sheri Osborn, Anthony Rios
语言模型的语料库规模显着增长,导致性能显着提高。然而,在开发处理更小、更人性化数据集的模型方面进展有限。作为 BabyLM 共享任务的一部分,本研究探讨了人类反馈 RLHF 的强化学习对使用有限训练语料库从头开始预训练的语言模型的影响。比较两个 GPT 2 变体,在 RLHF 微调后,较大的模型在讲故事任务中表现更好。这些发现表明,RLHF 技术由于其更高的学习和适应能力,对于较大的模型可能更有利,尽管需要更多的实验来证实这一发现。这些见解强调了 RLHF 在有限数据内对语言模型进行微调的潜在好处,增强了它们保持叙述焦点和连贯性的能力,同时更好地遵守讲故事任务中的初始指令。

SSLCL: An Efficient Model-Agnostic Supervised Contrastive Learning Framework for Emotion Recognition in Conversations
Authors Tao Shi, Xiao Liang, Yaoyuan Liang, Xinyi Tong, Shao Lun Huang
对话中的情绪识别 ERC 是自然语言处理社区中一项快速发展的任务,旨在检测说话者在对话中表达的情绪。最近,越来越多的 ERC 方法专注于利用监督对比学习 SCL 来增强学习特征的鲁棒性和泛化性。然而,当前 ERC 中基于 SCL 的方法受到大批量大小的限制以及与大多数现有 ERC 模型缺乏兼容性的阻碍。为了应对这些挑战,我们提出了一种高效且与模型无关的 SCL 框架,名为 Supervised Sample Label Contrastive Learning with Soft HGR Maximal Correlation SSLCL ,它消除了对大批量的需要,并且可以与现有的 ERC 模型无缝集成,而无需引入任何特定于模型的模型。假设。具体来说,我们引入了一种利用标签表示的新颖视角,通过浅层多层感知器将离散标签投影到密集嵌入中,并制定训练目标以最大化样本特征与其相应的地面真实标签嵌入之间的相似性,同时最小化样本之间的相似性不同类的特征和标签嵌入。此外,我们创新性地采用 Soft HGR 最大相关性作为样本特征和标签嵌入之间相似性的度量,与传统的相似性度量相比,性能得到显着提高。此外,SSLCL 有效地利用多模态话语线索作为数据增强来提高模型性能。对两个 ERC 基准数据集 IEMOCAP 和 MELD 进行的大量实验证明了我们提出的 SSLCL 框架与现有最先进的 SCL 方法相比的兼容性和优越性。

ChatGPT is a Potential Zero-Shot Dependency Parser
Authors Boda Lin, Xinyi Zhou, Binghao Tang, Xiaocheng Gong, Si Li
预训练的语言模型已广泛应用于依存解析任务中,并在解析器性能方面取得了显着的提高。然而,预训练的语言模型是否能够在零样本场景中自发地表现出依存句法分析的能力而不引入额外的句法分析器结构仍然是一个尚未研究的问题。在本文中,我们建议探索ChatGPT等大型语言模型的依存解析能力并进行语言分析。

ArTST: Arabic Text and Speech Transformer
Authors Hawau Olamide Toyin, Amirbek Djanibekov, Ajinkya Kulkarni, Hanan Aldarmaki
我们推出了 ArTST,一种经过预训练的阿拉伯语文本和语音转换器,用于支持阿拉伯语的开源语音技术。该模型架构遵循最近发布的英语统一模态框架 SpeechT5,重点关注现代标准阿拉伯语 MSA,并计划在未来版本中将该模型扩展到方言和代码交换阿拉伯语。我们在 MSA 语音和文本数据上从头开始对模型进行预训练,并针对以下任务对其进行微调:自动语音识别 ASR、文本到语音合成 TTS 和口语方言识别。在我们将 ArTST 与 SpeechT5 进行比较的实验中,以及与之前报告的这些任务的结果相比,ArTST 在所有三项任务中的表现均达到或超过了当前最先进的水平。此外,我们发现我们的预训练有利于泛化,这在低资源 TTS 任务中尤其明显。

Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors
Authors Marek Kubis, Pawe Sk rzewski, Marcin Sowa ski, Tomasz Zi tkiewicz
在口语对话系统中,NLU 模型之前是语音识别系统,这可能会降低自然语言理解的性能。本文提出了一种研究语音识别错误对自然语言理解模型性能影响的方法。所提出的方法将反转录过程与细粒度技术相结合,用于对影响 NLU 模型性能的错误进行分类。该方法依赖于使用合成语音进行 NLU 评估。

On the Interplay between Fairness and Explainability
Authors Stephanie Brandl, Emanuele Bugliarello, Ilias Chalkidis
为了构建可靠且值得信赖的 NLP 应用程序,模型需要在不同人群中公平且可解释。通常,公平性和可解释性这两个目标是相互独立地进行优化和/或检查的。相反,我们认为即将推出的、值得信赖的 NLP 系统应该考虑两者。在这项工作中,我们进行了第一项研究,以了解它们如何相互影响,更公平的模型依赖于更合理的理由,反之亦然。为此,我们在两个英语多类文本分类数据集 BIOS 和 ECtHR 上进行了实验,它们分别提供有关性别和国籍的信息以及人类注释的基本原理。我们使用几种减轻偏差的方法对预训练的语言模型进行微调,旨在提高公平性;ii 基本原理提取,旨在产生合理的解释。我们发现偏差缓解算法并不总是能带来更公平的模型。

Tailoring Personality Traits in Large Language Models via Unsupervisedly-Built Personalized Lexicons
Authors Tianlong Li, Xiaoqing Zheng, Xuanjing Huang
个性在塑造人类表达模式方面发挥着关键作用,赋予和操纵具有个性特征的大型语言模型法学硕士在增强法学硕士的用户体验方面具有重大前景。然而,先前的方法要么依赖于在富含个性化表达的语料库上对法学硕士进行微调,要么需要手动制作提示来诱导法学硕士产生个性化响应。前一种方法需要大量的时间和资源来收集足够的训练样本,而后者可能无法在细粒度的水平上精确操纵人格特征,例如,在降低开放性的同时实现高度的宜人性。在这项研究中,我们引入了一种在法学硕士中定制人格特质的新颖方法,允许以可插入的方式纳入五大因素的任意组合,即开放性、尽责性、外向性、宜人性和神经质。这是通过使用一组无监督构建的个性化词典 UBPL 来实现的,这些词典用于在解码阶段调整原始 LLM 预测的下一个标记的概率。这种调整鼓励模型生成个性化词典中存在的单词,同时保留生成文本的自然性。广泛的实验证明了我们的方法在精细操纵法学硕士人格特质方面的有效性。

WSDMS: Debunk Fake News via Weakly Supervised Detection of Misinforming Sentences with Contextualized Social Wisdom
Authors Ruichao Yang, Wei Gao, Jing Ma, Hongzhan Lin, Zhiwei Yang
近年来,我们目睹了虚假和未经证实的信息激增,即在社交​​媒体上疯传并震惊公众的谣言。谣言可能会在社交媒体用户中引发多种且最具争议性的立场表达。谣言验证和立场检测是不同但相关的任务。假新闻揭穿主要侧重于确定新闻文章的真实性,这将问题过于简单化,因为假新闻往往结合了真实和虚假的元素。因此,识别文章中错误信息的具体实例变得至关重要。在这项研究中,我们研究了假新闻揭穿领域的一项新任务,其中涉及检测句子级别的错误信息。这项任务的主要挑战之一是缺乏带有关于准确性的句子级注释的训练数据集。受多实例学习 MIL 方法的启发,我们提出了一种名为“弱监督错误信息检测 WSDMS”的模型。该模型只需要包级别标签进行训练,但能够在与新闻句子密切相关的相关社交媒体对话的帮助下推断句子级别的错误信息和文章级别的准确性。

Give Me the Facts! A Survey on Factual Knowledge Probing in Pre-trained Language Models
Authors Paul Youssef, Osman Alperen Kora , Meijie Li, J rg Schl tterer, Christin Seifert
预先训练的语言模型 PLM 经过大量未标记数据的训练,其中包含丰富的世界知识。这一事实激发了社区对量化 PLM 中事实知识量的兴趣,因为这解释了它们在下游任务上的性能,并可能证明它们作为知识库的使用是合理的。在这项工作中,我们调查了用于探索 PLM 以获得事实知识的方法和数据集。我们的贡献是 1 我们提出了事实探测方法的分类方案,该方案基于其输入、输出和探测的 PLM 的调整方式 2 我们提供了用于事实探测的数据集的概述 3 我们综合了有关知识保留和即时优化的见解

1-PAGER: One Pass Answer Generation and Evidence Retrieval
Authors Palak Jain, Livio Baldini Soares, Tom Kwiatkowski
我们推出的 1 Pager 是第一个使用基于 Transformer 的模型和解码过程来回答问题并检索证据的系统。 1 Pager 使用约束解码对检索语料库进行增量分区,以选择文档和答案字符串,并且根据检索和答案准确性指标,我们表明这与可比较的检索和阅读替代方案相比具有竞争力。通过将预测建立在证据语料库中,1 Pager 的性能也优于同等的闭卷问答模型。虽然 1 Pager 还无法与在生成答案之前读取更多文档的更昂贵的系统相提并论,但我们认为,它通过将检索折叠到目前在 NLP 中占主导地位的序列到序列范式,为归因生成迈出了重要的一步。

FedTherapist: Mental Health Monitoring with User-Generated Linguistic Expressions on Smartphones via Federated Learning
Authors Jaemin Shin, Hyungjun Yoon, Seungjoo Lee, Sungjoon Park, Yunxin Liu, Jinho D. Choi, Sung Ju Lee
精神科医生通过患者的语言使用来诊断精神障碍。尽管如此,由于数据隐私,现有的被动心理健康监测系统使用替代功能,例如通过移动设备进行的活动、应用程序使用和位置。我们提出了 FedTherapist,这是一种移动心理健康监测系统,通过联合学习以保护隐私的方式利用连续语音和键盘输入。我们通过比较 FedTherapist 的性能和开销来探索多种模型设计,以克服智能手机上设备语言模型训练的复杂性。我们进一步提出了一种上下文感知语言学习 CALL 方法,以有效利用智能手机大而嘈杂的文本进行心理健康信号感知。

R$^3$ Prompting: Review, Rephrase and Resolve for Chain-of-Thought Reasoning in Large Language Models under Noisy Context
Authors Qingyuan Tian, Hanlun Zhu, Lei Wang, Yang Li, Yunshi Lan
在Chain of Thought CoT提示的帮助下,大型语言模型LLM在各种推理任务上都取得了骄人的成绩。然而,其中大多数都是在无噪声环境下进行评估的,而法学硕士在噪声环境下产生不准确结果的困境尚未得到充分研究。现有研究利用触发句来鼓励法学硕士专注于相关信息,但触发句对最终答案预测的影响有限。受交互式 CoT 方法的启发,其中中间推理步骤是通过用户和 LLM 之间的多轮交互来促进的,我们提出了一种新颖的提示方法,即 R 3 提示,用于噪声环境下的 CoT 推理。具体来说,R 3提示与LLM交互,进行关键句提取、变量声明和答案预测,这对应了复习、改写和解决的思维过程。上次交互中生成的响应将作为提示来指导下一次交互的响应。我们的实验表明,在噪声环境下的五个推理任务中,R 3 提示明显优于现有的 CoT 提示方法。与最具竞争力的提示基线相比,使用 GPT 3.5 Turbo,我们观察到噪声环境下推理任务的平均准确性提高了 3.7。

An Early Evaluation of GPT-4V(ision)
Authors Yang Wu, Shilong Wang, Hao Yang, Tian Zheng, Hongbo Zhang, Yanyan Zhao, Bing Qin
在本文中,我们评估了 GPT 4V 的不同能力,包括视觉理解、语言理解、视觉解谜以及对深度、热、视频和音频等其他模式的理解。为了评估 GPT 4V 的性能,我们手动构建了 656 个测试实例,并仔细评估了 GPT 4V 的结果。我们的发现要点如下: 1 GPT 4V 在以英语视觉为中心的基准测试中表现出令人印象深刻的表现,但无法识别图像中的简单中文文本 2 GPT 4V 在回答与性别、种族和性别等敏感特征相关的问题时,表现出不一致的拒绝行为年龄 3 GPT 4V 在语言理解任务(包括一般语言理解基准和视觉常识知识评估基准)上获得比 GPT 4 API 更差的结果 4 很少的镜头提示可以提高 GPT 4V 在视觉理解和语言理解上的表现 5 GPT 4V 很难找到两个相似图像之间的细微差别并解决简单的数学图片难题 6 GPT 4V 在与图像类似的模式(例如视频和热)任务中表现出非凡的性能。

CUNI Submission to MRL 2023 Shared Task on Multi-lingual Multi-task Information Retrieval
Authors Jind ich Helcl, Jind ich Libovick
我们提出了用于 MRL 2023 多语言多任务信息检索共享​​任务的查尔斯大学系统。共享任务的目标是开发用于命名实体识别和几种代表性语言的问答系统。我们对这两个子任务的解决方案都依赖于翻译测试方法。我们首先使用多语言机器翻译模型将未标记的示例翻译成英语。然后,我们使用强大的任务特定模型对翻译后的数据进行推理。最后,我们将标记数据投影回原始语言。为了将推断的标签保持在原始语言中的正确位置,我们提出了一种基于使用标签敏感翻译模型对候选位置进行评分的方法。在这两种设置中,我们都尝试对翻译数据的分类模型进行微调。

Improving Diversity of Demographic Representation in Large Language Models via Collective-Critiques and Self-Voting
Authors Preethi Lahoti, Nicholas Blumm, Xiao Ma, Raghavendra Kotikalapudi, Sahitya Potluri, Qijun Tan, Hansa Srinivasan, Ben Packer, Ahmad Beirami, Alex Beutel, Jilin Chen
生成式大语言模型法学硕士面临的一个关键挑战是多样性,当用户的提示未指定时,模型在生成响应时可能会遵循隐含的假设,这可能会导致响应的同质化,以及某些人口群体的代表性不足,甚至从生成的响应中删除。在本文中,我们正式确定了生成式法学硕士的代表性多样性。我们提供评估数据集并提出指标来衡量沿人员和文化轴生成的响应的多样性。我们发现法学硕士了解多样性的概念,并且他们可以推理和批评自己对这一目标的反应。这一发现激发了一种名为集体批评和自我投票 CCSV 的新提示技术,通过利用其多样性推理能力来自我改善法学硕士的人员多样性,而不依赖于手工制作的示例或提示调整。

OccuQuest: Mitigating Occupational Bias for Inclusive Large Language Models
Authors Mingfeng Xue, Dayiheng Liu, Kexin Yang, Guanting Dong, Wenqiang Lei, Zheng Yuan, Chang Zhou, Jingren Zhou
大型语言模型法学硕士的出现彻底改变了自然语言处理任务。然而,现有的指令调整数据集存在职业偏见,大多数数据仅与少数职业相关,这阻碍了指令调整的法学硕士对特定领域从业者的专业查询产生有用的答复。为了缓解这个问题并促进职业包容性法学硕士,我们创建了一个名为 emph OccuQuest 的指令调整数据集,其中包含 110,000 个提示完成对和 30,000 个对话,涵盖 26 个职业类别的 1,000 多个职业。我们系统地请求ChatGPT,根据职业、职责、主题和问题分层组织查询,以确保职业专业查询的全面覆盖。通过与三个常用数据集 Dolly、ShareGPT 和 WizardLM 进行比较,我们观察到 OccuQuest 在职业之间表现出更加平衡的分布。此外,我们还组装了三个测试集进行综合评估,一个涵盖25个职业类别的oc测试集,一个专注于房地产的房地产测试集,以及一个包含来自Quora的现实世界问题的oc quora集。然后,我们对 OccuQuest 上的 LLaMA 进行微调以获得 OccuLLaMA,它在 GPT 4 和人类评估中的专业问题上显着优于最先进的 LLaMA 变体 Vicuna、Tulu 和 WizardLM。

Subspace Chronicles: How Linguistic Information Emerges, Shifts and Interacts during Language Model Training
Authors Max M ller Eberstein, Rob van der Goot, Barbara Plank, Ivan Titov
通过语言建模学习的表征空间是自然语言处理 NLP 的基础,但是对于训练期间各种类型的语言信息如何以及何时出现和交互的理解有限。利用新颖的信息理论探测套件,不仅可以直接比较任务性能,还可以直接比较其表征子空间,我们分析了涵盖语法、语义和推理的​​九个任务,涵盖 200 万个预训练步骤和五个种子。我们确定跨任务和时间的关键学习阶段,在此期间子空间出现、共享信息,然后分解以进行专业化。在这些阶段中,句法知识在 0.5 次完整训练后快速获得。持续的性能改进主要源于开放领域知识的获取,而语义和推理任务则受益于后期对远程情境化和更高专业化的提升。测量跨任务相似性进一步表明,语言相关的任务在整个训练过程中共享信息,并且在学习的关键阶段比之前或之后共享信息更多。

CLEX: Continuous Length Extrapolation for Large Language Models
Authors Guanzheng Chen, Xin Li, Zaiqiao Meng, Shangsong Liang, Lidong Bing
基于 Transformer 的大型语言模型 法学硕士在许多自然语言处理任务中取得了开创性的进步,但是,它们的卓越功能受到 Transformer 预设上下文窗口的限制。位置嵌入 PE 缩放方法虽然可以有效地将上下文窗口扩展到特定长度,但表现出其外推能力的显着限制或牺牲了上下文窗口内的部分性能。长度外推方法虽然理论上能够将上下文窗口扩展到训练序列长度之外,但在实际的长上下文应用中通常表现不佳。为了应对这些挑战,我们建议法学硕士使用连续长度外推 CLEX。我们推广了 PE 缩放方法,通过长度缩放因子上的常微分方程对连续动力学进行建模,从而克服了当前针对特定长度设计的 PE 缩放方法的限制。此外,通过将动力学扩展到超出训练序列长度的所需上下文长度,CLEX 促进了长度外推,在实际任务中具有令人印象深刻的性能。我们证明,CLEX 可以无缝集成到配备旋转位置嵌入的法学硕士中,例如 LLaMA 和 GPT NeoX,对训练和推理延迟的影响可以忽略不计。实验结果表明,CLEX 可以有效地将上下文窗口扩展到超过 4 倍或几乎 8 倍的训练长度,并且性能没有下降。

Diversity Enhanced Narrative Question Generation for Storybooks
Authors Hokeun Yoon, JinYeong Bak
根据给定上下文生成问题 QG 可以增强学习或对话环境中的理解、参与、评估和整体效率。尽管 QG 最近取得了进展,但增强或衡量生成问题的多样性的挑战通常仍未得到解决。在本文中,我们介绍了一种多问题生成模型 mQG,它能够通过关注上下文和问题来生成多个、多样化且可回答的问题。为了验证生成的问题的可回答性,我们采用 SQuAD2.0 微调问答模型,将问题分类为可回答或不可回答。我们在 FairytaleQA 数据集上训练和评估 mQG,这是一个基于故事书、带有叙述性问题的结构良好的 QA 数据集。我们进一步对 TellMeWhy 和 SQuAD1.1 数据集应用零样本适应。

PromptAgent: Strategic Planning with Language Models Enables Expert-level Prompt Optimization
Authors Xinyuan Wang, Chenxi Li, Zhen Wang, Fan Bai, Haotian Luo, Jiayou Zhang, Nebojsa Jojic, Eric P. Xing, Zhiting Hu
高效的任务特定提示通常由专家精心设计,基于对大型语言模型法学硕士的本能和目标任务的复杂性的深入理解,整合详细的说明和领域见解。然而,自动生成此类专家级提示仍然难以实现。现有的提示优化方法往往忽视领域知识的深度,并且难以有效地探索专家级提示的广阔空间。为了解决这个问题,我们提出了 PromptAgent,这是一种优化方法,可以自主制作提示,其质量与专家手工制作的提示相当。 PromptAgent 的核心是将提示优化视为战略规划问题,并采用植根于蒙特卡罗树搜索的原则规划算法,以战略性地导航专家级提示空间。受到人类试错探索的启发,PromptAgent 通过反思模型错误并生成建设性错误反馈,产生精确的专家级见解和深入的指导。这种新颖的框架允许代理迭代地检查中间提示状态,根据错误反馈操作对其进行细化,模拟未来的奖励,并搜索导致专家提示的高奖励路径。我们将 PromptAgent 应用于跨越三个实用领域 BIG Bench Hard BBH 的 12 个任务,以及特定领域和一般 NLP 任务,表明它显着优于强大的思想链和最近的即时优化基线。

Enhanced Simultaneous Machine Translation with Word-level Policies
Authors Kang Kim, Hankyu Cho
近年来,由于引入了规定翻译过程每个步骤是读还是写的创新策略,同步机器翻译 SiMT 领域取得了显着进展。然而,许多现有研究中的一个常见假设是操作是在子字级别进行的,尽管大多数实际场景中输入和输出的标准单位通常是在字级别。本文证明,在子词级别设计和验证的策略被在单词级别操作的策略所超越,后者在一个步骤中处理多个子词以形成完整的单词。此外,我们提出了一种使用语言模型 LM 来增强 SiMT 模型的方法,其中所提出的词级策略在解决 LM 和 SiMT 模型之间的子词差异方面发挥着至关重要的作用。

Decoding Stumpers: Large Language Models vs. Human Problem-Solvers
Authors Alon Goldstein, Miriam Havin, Roi Reichart, Ariel Goldstein
本文通过评估大型语言模型法学硕士在 Stumpers 上的表现来研究大型语言模型法学硕士的问题解决能力,这些独特的单步直觉问题对人类解决者提出了挑战,但很容易验证。我们将四种最先进的 LLM Davinci 2、Davinci 3、GPT 3.5 Turbo、GPT 4 的表现与人类参与者进行了比较。我们的研究结果表明,新一代法学硕士在解决难题方面表现出色,并超越了人类的表现。然而,人类在验证相同问题的解决方案方面表现出了卓越的技能。

ZGUL: Zero-shot Generalization to Unseen Languages using Multi-source Ensembling of Language Adapters
Authors Vipul Rathore, Rajdeep Dhingra, Parag Singla, Mausam
我们通过使用语言适配器 LA 解决了 NLP 任务中的零样本跨语言迁移问题。大多数早期作品都探索了使用单一源(通常是英语)的适配器进行训练,并使用目标 LA 或另一种相关语言的 LA 进行测试。训练目标 LA 需要未标记的数据,对于资源匮乏的看不见的语言来说,这些数据可能不容易获得,这些语言既不能被底层多语言语言模型(例如 mBERT)看到,也没有任何标记或未标记的数据。我们假设,为了更有效的跨语言迁移,我们需要在训练和测试时利用多种语言或地理相关源语言的 LA,而不仅仅是一种源 LA,我们通过新颖的神经架构 ZGUL 进行研究。跨四个语言组(涵盖 15 种未见过的目标语言)的广泛实验表明,与标准微调和 POS 标记和 NER 任务的其他强大基线相比,平均 F1 点提高了高达 3.2 点。我们还将 ZGUL 扩展到其中 1 个未标记数据或 2 个少数镜头训练示例可用于目标语言的设置。

Transformer-based Live Update Generation for Soccer Matches from Microblog Posts
Authors Masashi Oshika, Kosuke Yamada, Ryohei Sasano, Koichi Takeda
众所周知,尽管通过推文进行的体育直播观看体验越来越受欢迎,但从一系列大量不同的直播推文中生成足够的体育更新是很困难的。在本文中,我们专注于足球比赛,致力于构建一个系统,从推文中生成足球比赛的实时更新,以便用户可以立即掌握比赛的进展并从原始推文中享受比赛的精彩。

InstructPTS: Instruction-Tuning LLMs for Product Title Summarization
Authors Besnik Fetahu, Zhiyu Chen, Oleg Rokhlenko, Shervin Malmasi
电子商务产品目录包含数十亿个项目。大多数产品都有很长的标题,因为卖家会在其中添加产品属性以提高检索率并突出产品的关键方面。这导致了这种不自然的产品标题与客户如何引用它们之间的差距。

From Simple to Complex: A Progressive Framework for Document-level Informative Argument Extraction
Authors Quzhe Huang, Yanxi Zhang, Dongyan Zhao
文档级事件参数提取 EAE 要求模型从单个文档中提取多个事件的参数。考虑到这些事件之间的潜在依赖关系,最近的工作利用了内存的概念,其中已预测事件的结果被缓存并可以检索以帮助预测即将发生的事件。这些方法根据事件在文档中的出现顺序来提取事件,但是,出现在第一句中的事件并不意味着它是最容易提取的。如果现有方法依赖于对先前事件的错误预测,则可能会在即将发生的事件的提取中引入噪声。为了提供更可靠的记忆,我们提出了一个从简单到复杂的文档级 EAE 渐进框架。具体来说,我们首先计算每个事件的难度,然后按照从简单到复杂的顺序进行提取。这样,内存将存储最确定的结果,模型可以使用这些可靠的来源来帮助预测更困难的事件。

A Multi-Modal Multilingual Benchmark for Document Image Classification
Authors Yoshinari Fujinuma, Siddharth Varia, Nishant Sankaran, Srikar Appalaraju, Bonan Min, Yogarshi Vyas
文档图像分类不同于纯文本文档分类,它包括通过理解文档(例如表格、电子邮件和其他此类文档)的内容和结构来对文档进行分类。我们表明,用于此任务的唯一现有数据集 Lewis et al., 2006 有一些限制,我们引入了两个新策划的多语言数据集 WIKI DOC 和 MULTIEURLEX DOC 来克服这些限制。我们进一步对流行的视觉丰富的文档理解或文档 AI 模型进行了全面的研究,这些模型是在文档图像分类中以前未经测试的设置中进行的,例如 1 多标签分类和 2 零样本跨语言传输设置。实验结果表明,多语言文档 AI 模型在跨类型学上相距较远的语言之间进行跨语言迁移时存在局限性。

Unraveling Feature Extraction Mechanisms in Neural Networks
Authors Xiaobing Sun, Jiaxi Li, Wei Lu
神经网络捕获精确知识的基本机制一直是持续研究工作的主题。在这项工作中,我们提出了一种基于神经正切核 NTK 的理论方法来研究此类机制。具体来说,考虑到无限的网络宽度,我们假设目标模型的学习动态可能直观地揭示它们从训练数据中获取的特征,加深我们对其内部机制的洞察。我们将我们的方法应用于几个基本模型,并揭示这些模型如何在梯度下降过程中利用统计特征以及它们如何整合到最终决策中。我们还发现激活函数的选择会影响特征提取。例如,使用 textit ReLU 激活函数可能会引入特征偏差,从而为其在最近预训练的语言模型中用替代函数替换提供了合理的解释。此外,我们发现虽然自注意力和 CNN 模型在学习 n 克方面可能表现出局限性,但基于乘法的模型似乎在该领域表现出色。我们通过实验验证了这些理论发现,并发现它们可以应用于分析语言建模任务,这可以被视为分类的一种特殊变体。

A Comprehensive Evaluation of Constrained Text Generation for Large Language Models
Authors Xiang Chen, Xiaojun Wan
自然语言生成 NLG 和大型语言模型 LLM 的进步导致了各种任务中的熟练文本生成。然而,由于法学硕士的不透明性,将复杂的约束集成到神经文本生成中仍然具有挑战性。本研究研究了法学硕士的约束文本生成,其中在法学硕士的生成过程中应用了预定义的约束。我们的研究考察了多个法学硕士,包括 ChatGPT 和 GPT 4,将约束分为词汇、结构和基于关系的类型。我们还提供各种基准以促进公平评估。该研究解决了一些关键的研究问题,包括法学硕士遵守限制的程度。结果阐明了法学硕士纳入约束的能力和不足,并为受限文本生成的未来发展提供了见解。

CoheSentia: A Novel Benchmark of Incremental versus Holistic Assessment of Coherence in Generated Texts
Authors Aviya Maimon, Reut Tsarfaty
连贯性是一个语言学术语,指的是小文本单元、句子、命题之间的关系,它使文本在逻辑上一致并且对读者有意义。随着 NLP 生成基础模型的进步,迫切需要自动评估自动生成文本的人类感知连贯性。到目前为止,在明确评估生成文本的连贯性和分析影响连贯性的因素方面几乎没有做任何工作。之前关于该主题的工作使用其他任务(例如句子重新排序)作为连贯性的代理,而不是直接进行连贯性检测。在本文中,我们介绍了 sc CoheSentia,这是人类感知自动生成文本连贯性的新基准。我们的注释协议反映了两种观点,一种是全局的,分配单个连贯性分数,另一种是增量的,逐句评分。增量方法为每个文本片段生成一个不连贯的分数,并查明该点不连贯的原因。我们的基准测试包含 500 个自动生成和人工注释的段落,每个段落均由多个评分者以两种方法进行注释。我们的分析表明,增量模式中的注释器间一致性高于整体替代模式,并且我们的实验表明,针对连贯性检测进行微调的标准 LM 在促进连贯性的不同因素上表现出不同的性能。

Samsung R&D Institute Philippines at WMT 2023
Authors Jan Christian Blaise Cruz
在本文中,我们描述了菲律宾三星研发中心向 WMT 2023 通用翻译任务提交的受限机器翻译系统,其两个方向为 en rightarrow he 和 he rightarrow en。我们的系统由基于 Transformer 的序列到序列模型组成,这些模型通过综合数据预处理管道、合成反向翻译数据以及在线解码期间使用噪声通道重新排序的最佳实践进行训练。

DiQAD: A Benchmark Dataset for End-to-End Open-domain Dialogue Assessment
Authors Yukun Zhao, Lingyong Yan, Weiwei Sun, Chong Meng, Shuaiqiang Wang, Zhicong Cheng, Zhaochun Ren, Dawei Yin
对话评估在开放域对话系统的开发中起着至关重要的作用。现有的工作无法提供端到端和人类认知评估数据集,而它们仅提供诸如一致性之类的子指标或远离真实用户设置的注释者之间进行的对话。在本文中,我们发布了大规模对话质量评估数据集 DiQAD,用于自动评估开放域对话质量。具体来说,我们1根据符合人类对对话质量判断的维度建立评估标准,2根据这些标注标准对真实用户之间进行的大规模对话进行注释,其中包含大约100,000个对话。我们进行了多次实验并报告基线的性能作为 DiQAD 的基准。

URL-BERT: Training Webpage Representations via Social Media Engagements
Authors Ayesha Qamar, Chetan Verma, Ahmed El Kishky, Sumit Binnani, Sneha Mehta, Taylor Berg Kirkpatrick
理解和表示网页对于用户可以共享 URL 并与之互动的在线社交网络至关重要。 BERT 等通用语言模型 LM 编码器可用于理解和表示网页的文本内容。然而,这些表示可能无法对网络域和 URL 的主题信息进行建模,也无法准确捕捉它们对社交媒体用户的吸引力。在这项工作中,我们引入了一个新的预训练目标,可用于调整 LM 来理解 URL 和网页。我们提出的框架由两个步骤组成:1.可扩展的图嵌入,用于根据社交媒体上的用户参与度来学习 URL 的浅层表示;2.对比目标,将 LM 表示与上述基于图的表示相结合。我们将我们的框架应用于多语言版本的 BERT 以获得模型 URL BERT。

Is ChatGPT a Good Multi-Party Conversation Solver?
Authors Chao Hong Tan, Jia Chen Gu, Zhen Hua Ling
大型语言模型法学硕士已经成为自然语言处理领域有影响力的工具,然而,它们处理多方对话 MPC 的能力仍然未知,这种情况以存在多个对话者参与复杂的信息交换为标志。在本文中,我们深入研究了生成式 LLM(例如 ChatGPT 和 GPT 4)在 MPC 背景下的潜力。通过对涵盖五个代表性任务的三个 MPC 数据集进行评估,进行了实证分析,以评估 ChatGPT 和 GPT 4 的零样本学习能力。研究结果表明,ChatGPT 在许多经过评估的 MPC 任务上的表现还有很多不足之处,而 GPT 4 的结果则预示着光明的未来。此外,我们努力通过合并 MPC 结构(包括说话者和收件人架构)来提高性能。这项研究提供了将生成法学硕士应用于 MPC 的详尽评估和分析,阐明了日益有效和强大的 MPC 代理的概念和创建。

XFEVER: Exploring Fact Verification across Languages
Authors Yi Chen Chang, Canasai Kruengkrai, Junichi Yamagishi
本文介绍了跨语言事实提取和验证 XFEVER 数据集,旨在对不同语言的事实验证模型进行基准测试。我们通过将事实提取和验证 FEVER 数据集的主张和证据文本翻译成六种语言来构建它。训练和开发集是使用机器翻译翻译的,而测试集包括专业翻译人员翻译的文本和机器翻译的文本。使用 XFEVER 数据集,定义了两种跨语言事实验证场景:零样本学习和翻译训练学习,并且本文还提出了每种场景的基线模型。实验结果表明,多语言模型可以有效地构建不同语言的事实验证模型。然而,性能因语言而异,略逊于英语情况。我们还发现,通过考虑英语和目标语言之间的预测相似性,可以有效地减轻模型校准错误。

CycleAlign: Iterative Distillation from Black-box LLM to White-box Models for Better Human Alignment
Authors Jixiang Hong, Quan Tu, Changyu Chen, Xing Gao, Ji Zhang, Rui Yan
在大规模语料库上训练的语言模型通常会生成有害、有毒或违背人类偏好的内容,使其与人类价值观的一致性成为一个关键问题。使用 PPO 等算法从人类反馈 RLHF 中进行强化学习是一种流行的对齐方法,但通常很复杂、不稳定且资源密集。最近,出现了基于排名的对齐方法,通过用监督微调替换强化学习框架来提供稳定性和有效性,但由于需要注释数据,它们的成本很高。考虑到像 ChatGPT 这样的现有大型语言模型 LLM 已经相对良好地对齐且成本友好,研究人员已经开始根据人工智能反馈将语言模型与人类偏好对齐。常见做法是根据法学硕士的响应单向提炼指令,但受到其瓶颈的限制。因此,我们引入了 CycleAlign,以迭代的方式将对齐能力从参数不可见的 LLM 黑盒提炼为参数可见的模型白盒。以情境学习 ICL 作为周期的核心,黑盒模型能够对由人类工艺指导和偏好演示引导的模型生成的响应进行排名。在迭代交互过程中,白盒模型也会对其产生的响应进行判断。因此,协议排名可以被视为一个伪标签,可以动态更新上下文演示并提高黑盒模型的偏好排名能力。通过多次交互,CycleAlign框架可以以低资源的方式有效地将白盒模型与黑盒模型对齐。

Attention Lens: A Tool for Mechanistically Interpreting the Attention Head Information Retrieval Mechanism
Authors Mansi Sakarvadia, Arham Khan, Aswathy Ajith, Daniel Grzenda, Nathaniel Hudson, Andr Bauer, Kyle Chard, Ian Foster
基于 Transformer 的大型语言模型 LLM 是自然语言任务的最先进技术。最近的工作试图通过对线性层的作用进行逆向工程来解码法学硕士对文本完成任务进行最终预测的内部机制。然而,人们对注意力头在产生最终代币预测中的具体作用知之甚少。我们提出了注意力透镜(Attention Lens),这是一种工具,使研究人员能够通过学习的注意力头特定转换(称为透镜)将注意力头的输出转换为词汇标记。我们经过训练的镜头的初步发现表明,注意力头在语言模型中扮演着高度专业化的角色。

Multilingual Coarse Political Stance Classification of Media. The Editorial Line of a ChatGPT and Bard Newspaper
Authors Cristina Espa a Bonet
中立很难实现,而且在政治上是主观的。传统媒体通常采用社论,潜在读者可以将其用作媒体偏见的指标。目前有几个平台根据新闻媒体的政治偏见对其进行评级。社论和评级有助于读者获得对新闻的平衡看法。但随着语言模型教学的出现,诸如撰写报纸文章之类的任务可以委托给计算机。在不强加偏见的情况下,基于人工智能的新闻媒体在偏见评级中的位置在哪里?在这项工作中,我们使用真实新闻媒体的评级来创建一个多语言新闻语料库,其中包含粗略的立场注释左和右以及自动提取的主题注释。我们表明,根据这些数据训练的分类器能够识别大多数未见过的英语、德语、西班牙语和加泰罗尼亚语报纸的社论。然后,我们将分类器应用于 ChatGPT 和 Bard 在不同时间段用 4 种语言撰写的 101 篇类似报纸的文章。

The Distributional Hypothesis Does Not Fully Explain the Benefits of Masked Language Model Pretraining
Authors Ting Rui Chiang, Dani Yogatama
我们从分布假设的角度分析了掩码语言建模预训练目标函数。我们研究了使用掩码语言模型预训练的模型的更好的样本效率和更好的泛化能力是否可以归因于预训练数据的分布属性中编码的语义相似性。通过合成数据集,我们的分析表明,分布特性确实可以提高预训练掩码语言模型的样本效率,但并不能完全解释泛化能力。我们还对两个现实世界数据集进行了分析,并证明分布属性也不能解释预训练自然语言模型的泛化能力。

Speakerly: A Voice-based Writing Assistant for Text Composition
Authors Dhruv Kumar, Vipul Raheja, Alice Kaiser Schatzlein, Robyn Perry, Apurva Joshi, Justin Hugues Nuger, Samuel Lou, Navid Chowdhury
我们推出了Speakerly,这是一种新的基于实时语音的书写辅助系统,可以帮助用户在电子邮件、即时消息和笔记等各种用例中进行文本撰写。用户可以通过指令或听写与系统交互,系统生成格式良好且连贯的文档。我们描述了系统架构,并详细说明了我们在大规模构建和部署此类系统时如何应对各种挑战。

GlotLID: Language Identification for Low-Resource Languages
Authors Amir Hossein Kargaran, Ayyoob Imani, Fran ois Yvon, Hinrich Sch tze
最近的几篇论文发表了针对大约 300 种高资源和中等资源语言的语言识别 LID 的良好解决方案。然而,没有可用的 LID i 涵盖广泛的低资源语言、ii 经过严格评估且可靠、iii 高效且易于使用。在这里,我们发布了 GlotLID M,一个满足广覆盖、可靠和高效的 LID 模型。它识别了 1665 种语言,与之前的工作相比,覆盖范围大幅增加。在我们的实验中,在平衡 F1 和误报率 FPR 时,GlotLID M 优于四个基线 CLD3、FT176、OpenLID 和 NLLB。我们分析了低资源 LID 带来的独特挑战:不正确的语料库元数据、高资源语言的泄漏、分离密切相关的语言的困难、宏语言与变体的处理以及一般的噪声数据。我们希望将 GlotLID M 集成到数据集创建管道中将提高质量并增强 NLP 技术针对低资源语言和文化的可访问性。

Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting Pre-trained Language Models
Authors Raymond Li, Gabriel Murray, Giuseppe Carenini
在这项工作中,我们提出了一种方法,通过在参数高效微调 PEFT 设置中将语言结构注入到预训练的语言模型中,结合了两个流行的研究领域。在我们的方法中,使用新颖的语言专家混合架构将编码不同语言结构的并行适配器模块组合在一起,其中使用 Gumbel Softmax 门来确定这些模块在模型每一层的重要性。为了减少参数数量,我们首先以固定的少量步骤训练模型,然后根据专家的重要性得分来修剪专家。我们对三种不同的预训练模型的实验结果表明,我们的方法可以在参数数量相当的情况下优于最先进的 PEFT 方法。

CleanCoNLL: A Nearly Noise-Free Named Entity Recognition Dataset
Authors Susanna R cker, Alan Akbik
CoNLL 03 语料库可以说是最著名和最常用的命名实体识别 NER 基准数据集。然而,之前的工作发现数据中存在大量注释错误、不完整性和不一致。这对客观比较 NER 方法并分析其错误提出了挑战,因为当前最先进的模型实现的 F1 分数可与 CoNLL 03 中的估计噪声水平相当甚至超过。为了解决这个问题,我们提出了一种全面的重新标记工作辅助方法通过自动一致性检查,纠正了英语 CoNLL 03 中所有标签的 7.0。我们的努力添加了一层实体链接注释,以便更好地解释 NER 标签,并作为注释质量的额外保障。我们的实验评估不仅发现最先进的方法在我们的数据上达到了显着更高的 F1 分数 97.1,而且至关重要的是,由于注释噪声而被错误地计为错误的正确预测的比例从 47 下降到 6。这表明我们的资源非常适合分析最先进模型所造成的剩余错误,并且即使在高资源、粗粒度 NER 上也尚未达到理论上限。

Knowledge Editing for Large Language Models: A Survey
Authors Song Wang, Yaochen Zhu, Haochen Liu, Zaiyi Zheng, Chen Chen, Jundong Li
大型语言模型法学硕士最近改变了学术和工业格局,因为它们具有基于其丰富的知识和推理能力来理解、分析和生成文本的卓越能力。然而,法学硕士的一个主要缺点是,由于参数数量空前,其预训练的计算成本很高。当需要频繁地将新知识引入到预先训练的模型中时,该缺点会更加严重。因此,开发有效且高效的技术来更新预训练的法学硕士势在必行。传统方法通过直接微调将新知识编码到预先训练的法学硕士中。然而,单纯地重新训练 LLM 可能需要大量计算,并且可能会导致与模型更新无关的有价值的预训练知识退化。最近,基于知识的模型编辑KME引起了越来越多的关注,其目的是精确修改LLM以融入特定知识,而不会对其他不相关知识产生负面影响。在本次调查中,我们旨在全面、深入地概述 KME 领域的最新进展。我们首先介绍 KME 的一般表述,以涵盖不同的 KME 策略。之后,我们根据如何将新知识引入预先训练的法学硕士中,提供了 KME 技术的创新分类法,并研究现有的 KME 策略,同时分析每个类别方法的关键见解、优点和局限性。此外,还相应介绍了 KME 的代表性指标、数据集和应用。

Background Summarization of Event Timelines
Authors Adithya Pratapa, Kevin Small, Markus Dreyer
生成新闻事件的简明摘要是一项具有挑战性的自然语言处理任务。虽然记者经常策划时间线来突出关键的子事件,但新闻事件的新手在了解其历史背景方面面临着挑战。在本文中,我们通过引入背景新闻摘要任务来满足这一需求,该任务通过相关先前事件的背景摘要来补充每个时间线更新。我们通过合并现有时间线数据集并要求人工注释者为每个新闻事件的每个时间步编写背景摘要来构建数据集。我们使用最先进的摘要系统建立强大的基线性能,并提出一个以查询为中心的变体来生成背景摘要。为了评估背景摘要质量,我们提出了一个基于问题回答的评估指标,即背景实用得分 BUS ,它衡量背景摘要回答的有关当前事件时间步长的问题的百分比。

Length is a Curse and a Blessing for Document-level Semantics
Authors Chenghao Xiao, Yizhi Li, G Thomas Hudson, Chenghua Lin, Noura Al Moubayed
近年来,对比学习 CL 已被广泛用于从预训练的语言模型中恢复句子和文档级编码能力。在这项工作中,我们质疑基于 CL 的模型的长度泛化性,即它们对长度引起的语义转移的脆弱性。我们不仅验证了长度漏洞是一个重要但被忽视的研究空白,而且我们可以仅根据文档长度提供的语义信号来设计无监督的 CL 方法。我们首先推导出长度攻击背后的理论基础,表明拉长文档会加剧 CL 已经带来的文档内高度相似性。此外,我们发现 CL 所承诺的各向同性高度依赖于训练中暴露的文本的长度范围。

BLP 2023 Task 2: Sentiment Analysis
Authors Md. Arid Hasan, Firoj Alam, Anika Anjum, Shudipta Das, Afiyat Anjum
我们概述了 BLP 情感共享任务,该任务是作为首届 BLP 2023 研讨会的一部分组织的,与 EMNLP 2023 同期举办。该任务被定义为在给定的社交媒体文本中检测情感。该任务吸引了 71 名参与者的兴趣,其中分别有 29 和 30 个团队在开发和评估阶段提交了系统。参与者总共提交了 597 次运行。不过,共有 15 个团队提交了系统描述论文。提交的系统中的方法范围涵盖从经典机器学习模型、微调预训练模型到在零和少量设置中利用大型语言模型法学硕士。在本文中,我们详细介绍了任务设置,包括数据集开发和评估设置。此外,我们还对参与者提交的系统进行了简要概述。

Hidden Citations Obscure True Impact in Science
Authors Xiangyi Meng, Onur Varol, Albert L szl Barab si
参考文献是科学家用来表示先前知识的机制,最近已变成广泛使用和滥用的科学影响衡量标准。然而,当一项发现成为常识时,引用就会因合并而被删除。这就引出了隐藏引用的概念,它代表了一项发现的明确文本来源,但没有提及体现该发现的出版物。在这里,我们依靠应用于每篇论文全文的无监督可解释机器学习来系统地识别隐藏的引文。我们发现,对于有影响力的发现,隐藏的引用数量超过了引用次数,无论出版地点和学科如何,都会出现。我们表明,隐藏引用的普遍性并不是由引用计数驱动的,而是由手稿文本中对该主题的讨论程度驱动的,这表明对一个发现讨论得越多,它在标准文献计量中就越不明显。分析。

Correction with Backtracking Reduces Hallucination in Summarization
Authors Zhenzhen Liu, Chao Wan, Varsha Kishore, Jin Peng Zhou, Minmin Chen, Kilian Q. Weinberger
抽象摘要旨在生成源文档的自然语言摘要,该摘要在保留重要元素的同时简洁。尽管最近取得了进展,但众所周知,神经文本摘要模型容易产生幻觉或更准确地说是混淆,即生成具有不以源文档为基础的细节的摘要。在本文中,我们介绍了一种简单而有效的技术 CoBa,以减少抽象概括中的幻觉。该方法基于幻觉检测和缓解两个步骤。我们表明,前者可以通过测量有关条件词概率和与上下文词的距离的简单统计来实现。此外,我们证明直接回溯在缓解方面出人意料地有效。我们在三个文本摘要基准数据集上利用现有技术彻底评估了所提出的方法。

WojoodNER 2023: The First Arabic Named Entity Recognition Shared Task
Authors Mustafa Jarrar, Muhammad Abdul Mageed, Mohammed Khalilia, Bashar Talafha, AbdelRahim Elmadany, Nagham Hamad, Alaa Omar
我们推出了 WojoodNER 2023,这是第一个阿拉伯命名实体识别 NER 共享任务。 WojoodNER 2023 的主要重点是阿拉伯语 NER,提供新颖的 NER 数据集,即 Wojood 和子任务的定义,旨在促进不同 NER 方法之间进行有意义的比较。 WojoodNER 2023 包含两个子任务 FlatNER 和 NestedNER。共有 45 个独特的团队注册参加此共享任务,其中 11 个团队积极参与测试阶段。具体来说,有 11 个团队参加了 FlatNER,而 8 个团队则解决了 NestedNER。

PreWoMe: Exploiting Presuppositions as Working Memory for Long Form Question Answering
Authors Wookje Han, Jinsol Park, Kyungjae Lee
由于问题中的歧义或错误预设,长格式问答 LFQA 中的信息寻求问题常常会产生误导。虽然许多现有方法处理误导性问题,但它们是针对有限的问题量身定制的,这在具有不可预测的输入特征的现实世界环境中是不够的。在这项工作中,我们提出了 PreWoMe,一种能够处理任何类型的信息搜索问题的统一方法。 PreWoMe 的关键思想包括提取问题中的预设并将其用作工作记忆来生成有关问题的反馈和行动。

A Language Model with Limited Memory Capacity Captures Interference in Human Sentence Processing
Authors William Timkey, Tal Linzen
人们认为导致人类句子处理困难的两个核心因素是期望和工作记忆的检索。最近尝试创建一个整合这两个因素的统一认知模型,依赖于变压器语言模型的自我注意机制与人类句子处理中基于线索的工作记忆检索理论之间的相似性 Ryu 和 Lewis 2021。虽然 Ryu 和 Lewis 表明 GPT 2 的专门注意头中的注意模式与基于相似性的干扰(基于线索的检索模型的关键预测)一致,但他们的方法需要识别句法专门注意头,并做出了认知上难以置信的假设,即数百个记忆检索操作并行进行。在目前的工作中,我们开发了一种具有单个自注意力头的循环神经语言模型,它更接近于认知理论假设的记忆系统。

Can You Follow Me? Testing Situational Understanding in ChatGPT
Authors Chenghao Yang, Allyson Ettinger
理解句子含义并随着时间的推移适当地更新信息状态,我们称之为情境理解 SU,是像人类这样的人工智能代理的一项关键能力。 SU 对于 ChatGPT 等聊天模型尤其重要,可以实现人类与人工智能之间一致、连贯且有效的对话。以前的工作已经确定了非聊天机器人大型语言模型法学硕士中的某些 SU 限制,但这些限制的程度和原因尚未得到很好的理解,并且该领域中当前基于聊天的模型的功能尚未得到探索。在这项工作中,我们解决了这些问题,提出了一种新颖的 SU 测试综合环境,通过评估模型跟踪和枚举环境状态的能力,我们可以在面向聊天的模型中对 SU 进行受控和系统的测试。我们的环境还允许对模型性能的动态进行仔细分析,以更好地理解性能模式的根本原因。我们将测试应用于最先进的聊天机器人 ChatGPT,发现尽管任务非常简单,但模型的性能反映出无法随时间保留正确的环境状态。我们的后续分析表明,性能下降很大程度上是因为 ChatGPT 在上下文内存中没有持久性,尽管它可以访问完整的对话历史记录,并且很容易受到幻觉更新的影响,包括人为提高准确性的更新。我们的研究结果表明,总体而言,ChatGPT 目前尚不具备对情况状态进行稳健跟踪的能力,并且对 ChatGPT 令人印象深刻的对话性能的信任伴随着风险。

GenKIE: Robust Generative Multimodal Document Key Information Extraction
Authors Panfeng Cao, Ye Wang, Qiang Zhang, Zaiqiao Meng
从扫描文档中提取关键信息 KIE 由于其在各个领域的应用而受到越来越多的关注。尽管最近的一些 KIE 方法取得了有希望的结果,但它们通常是基于判别模型构建的,缺乏处理光学字符识别 OCR 错误的能力,并且需要费力的标记级别标记。在本文中,我们提出了一种新颖的生成式端到端模型,名为 GenKIE,来解决 KIE 任务。 GenKIE 是一种序列到序列多模态生成模型,它利用多模态编码器嵌入视觉、布局和文本特征,并利用解码器生成所需的输出。利用精心设计的提示将标签语义合并为弱监督信号并诱使关键信息的生成。生成模型的一个显着优点是它能够自动纠正 OCR 错误。此外,不需要令牌级别的粒度注释。对多个公共现实世界数据集的广泛实验表明,GenKIE 有效地概括了不同类型的文档并取得了最先进的结果。

Octopus: A Multitask Model and Toolkit for Arabic Natural Language Generation
Authors AbdelRahim Elmadany, El Moatez Billah Nagoudi, Muhammad Abdul Mageed
理解阿拉伯语文本并生成类似人类的响应是一项具有挑战性的工作。尽管许多研究人员针对个别问题提出了模型和解决方案,但严重缺乏能够处理广泛任务的综合阿拉伯语自然语言生成工具包。在这项工作中,我们提出了一种新颖的阿拉伯语文本到文本 Transformer 模型,即 AraT5v2。我们的新模型利用 2,048 个标记的扩展序列长度,对广泛且多样化的数据进行了系统的训练。我们在单任务和多任务设置下探索了各种预训练策略,包括无监督、监督和联合相关。我们的模型以巨大的利润超越了竞争基准。我们通过开发并公开发布 Octopus 使我们的工作更进一步,这是一个基于 Python 的软件包和命令行工具包,专为八个阿拉伯语生成任务而定制,所有任务都利用一个模型。

NADI 2023: The Fourth Nuanced Arabic Dialect Identification Shared Task
Authors Muhammad Abdul Mageed, AbdelRahim Elmadany, Chiyu Zhang, El Moatez Billah Nagoudi, Houda Bouamor, Nizar Habash
我们描述了第四届细致阿拉伯方言识别共享任务 NADI 2023 的研究结果。 NADI 的目标是通过为研究人员团队创造在标准化条件下协作竞争的机会,帮助推进最先进的阿拉伯语 NLP。它的重点是阿拉伯方言,提供新颖的数据集并定义子任务,以便在不同方法之间进行有意义的比较。 NADI 2023 的目标是方言识别子任务 1 和方言到 MSA 机器翻译子任务 2 和子任务 3。共有 58 个不同的团队报名参加共享任务,其中 18 个团队在测试阶段参与了 76 份有效提交。

Locally Differentially Private Document Generation Using Zero Shot Prompting
Authors Saiteja Utpala, Sara Hooker, Pin Yu Chen
大量研究强调了与预训练大型语言模型相关的隐私风险。相比之下,我们的研究提供了独特的视角,证明预训练的大型语言模型可以有效地促进隐私保护。我们提出了一种称为 DP Prompt 的本地差分隐私机制,它利用预训练的大型语言模型和零样本提示的力量来对抗作者去匿名化攻击,同时最大限度地减少对下游效用的影响。当 DP Prompt 与 ChatGPT gpt 3.5 等强大的语言模型一起使用时,我们观察到去匿名化攻击的成功率显着降低,这表明尽管其设计更简单,但它仍远远超过了现有方法。例如,在 IMDB 数据集的情况下,带有 ChatGPT 的 DP Prompt 完美恢复了干净的情感 F1 分数,同时针对静态攻击者实现了作者识别 F1 分数降低 46 分,针对自适应攻击者降低了 26 分。

CR-COPEC: Causal Rationale of Corporate Performance Changes to Learn from Financial Reports
Authors Ye Eun Chun, Sunjae Kwon, Kyunghwan Sohn, Nakwon Sung, Junyoup Lee, Byungki Seo, Kevin Compher, Seung won Hwang, Jaesik Choi
在本文中,我们从财务报告中引入了华润科佩克公司绩效变化的因果原理。这是一个全面的大规模领域适应因果句数据集,用于检测企业财务绩效变化。华润科欧佩克取得了两项重大成就。首先,它从 10,000 份美国公司的年报中检测因果原理,其中包含按照会计准则以正式方式进行的专家因果分析。该数据集可以被个人投资者和分析师广泛用作投资和决策的重要信息资源,而无需花费大量精力阅读所有文档。其次,它仔细考虑了影响十二个行业公司财务绩效的不同特征。因此,CR COPEC可以通过考虑每个行业独特的叙述来区分各个行业的因果句。我们还对 CR COPEC 数据集的构造以及适合将目标句子分类为与行业特征相关的因果句子的情况进行了广泛的分析。

Discrete Diffusion Language Modeling by Estimating the Ratios of the Data Distribution
Authors Aaron Lou, Chenlin Meng, Stefano Ermon
尽管扩散模型在许多生成建模任务中具有突破性的性能,但在自然语言等离散数据领域仍存在不足。至关重要的是,标准扩散模型依赖于完善的分数匹配理论,但将其推广到离散结构的努力并未产生相同的经验收益。在这项工作中,我们通过提出分数熵来弥补这一差距,这是一种比现有方法更稳定的新型离散分数匹配损失,形成用于最大似然训练的 ELBO,并且可以通过去噪变体进行有效优化。我们将分数熵离散扩散模型 SEDD 扩展到 GPT 2 的实验设置,实现了高度竞争的可能性,同时还引入了独特的算法优势。特别是,当比较类似大小的 SEDD 和 GPT 2 模型时,SEDD 的困惑度通常在 10 以内,有时甚至优于基线。此外,与采用大型模型测量的祖先采样的 GPT 2 模型相比,SEDD 模型可以学习更忠实的序列分布,效果大约是 GPT 2 模型的 4 倍,可以权衡计算以换取生成质量,只需要减少 16 倍的网络评估即可匹配 GPT 2,并且可以实现任意

Kiki or Bouba? Sound Symbolism in Vision-and-Language Models
Authors Morris Alper, Hadar Averbuch Elor
尽管人类语言中声音和意义之间的映射被认为在很大程度上是任意的,但认知科学研究表明,跨语言和人口群体的特定声音和意义之间存在着重要的相关性,这种现象被称为声音象征主义。在意义的许多维度中,声音象征尤为突出,并且在语言和视觉领域之间的跨模式关联方面得到了很好的证明。在这项工作中,我们解决了声音象征主义是否反映在视觉和语言模型(例如 CLIP 和稳定扩散)中的问题。使用零样本知识探测来研究这些模型的固有知识,我们发现强有力的证据表明它们确实表现出这种模式,与心理语言学中众所周知的 kiki bouba 效应相似。我们的工作提供了一种利用计算工具展示声音象征意义并理解其本质的新颖方法。

Context Does Matter: End-to-end Panoptic Narrative Grounding with Deformable Attention Refined Matching Network
Authors Yiming Lin, Xiao Bo Jin, Qiufeng Wang, Kaizhu Huang
全景叙事基础 PNG 是一种新兴的视觉基础任务,旨在根据密集的叙事字幕分割图像中的视觉对象。当前最先进的方法首先通过聚合最相似的 k 个图像像素来细化短语的表示,然后将细化的文本表示与图像特征图的像素进行匹配以生成分割结果。然而,简单地聚合采样图像特征会忽略上下文信息,这可能导致短语与像素不匹配。在本文中,我们提出了一种称为可变形注意力精细匹配网络 DRMN 的新型学习框架,其主要思想是在特征学习的迭代过程中引入可变形注意力,以合并不同尺度像素的基本上下文信息。 DRMN 在更新前 k 个最相似像素的特征表示后,使用可变形注意网络迭代地重新编码像素。因此,DRMN 可以产生准确但有区别的像素表示,纯化前 k 个最相似的像素,从而大大减轻短语到像素的不匹配。实验结果表明,我们的新颖设计显着改善了文本短语和图像像素之间的匹配结果。具体而言,DRMN 在 PNG 基准上实现了新的最先进性能,平均召回率提高了 3.5。

DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models
Authors Ge Zheng, Bin Yang, Jiajin Tang, Hong Yu Zhou, Sibei Yang
人工智能系统的一个长期目标是像人类一样执行复杂的多模式推理。最近,大型语言模型法学硕士仅通过利用思想链 CoT 来模仿人类思维,就在语言模态的多步推理方面取得了显着的进步。然而,将这些进步转移到多模态环境中带来了更大的挑战,包括但不限于对劳动密集型注释的不切实际的需求以及灵活性、普遍性和可解释性方面的限制。为了唤起多模态中的 CoT 推理,这项工作首先对多模态带来的这些挑战进行了深入分析,并提出了保持批判性思维和让每个人在多模态 CoT 推理中各司其职的两个关键见解。此外,本研究提出了一种新颖的DDCoT提示,通过负空间提示保持批判态度,并将多模态融入推理,首先将法学硕士的推理责任划分为推理和识别,然后将视觉模型的视觉识别能力融入联合推理过程。

Video Referring Expression Comprehension via Transformer with Content-conditioned Query
Authors Ji Jiang, Meng Cao, Tengtao Song, Long Chen, Yi Wang, Yuexian Zou
视频引用表达理解 REC 旨在根据查询的自然语言定位视频中的目标对象。最近视频 REC 的改进是使用基于 Transformer 的方法和可学习查询进行的。然而,我们认为,考虑到文本监督带来的视频 REC 的开放世界性质,这种简单的查询设计并不理想。由于存在大量潜在的语义类别,仅依靠一些缓慢更新的查询不足以表征它们。我们对此问题的解决方案是创建以输入视频和语言为条件的动态查询,以对所引用的不同对象进行建模。具体来说,我们在整个框架中放置固定数量的可学习边界框,并使用相应的区域特征来提供先验信息。此外,我们注意到当前的查询功能忽略了跨模式对齐的重要性。为了解决这个问题,我们将句子中的特定短语与语义相关的视觉区域对齐,并在现有视频数据集 VID Sentence 和 VidSTG 中对它们进行注释。通过结合这两种设计,我们提出的名为 ConFormer 的模型在广泛的基准数据集上优于其他模型。例如,在 VID Sentence 数据集的测试分割中,ConFormer 在 Accu 上实现了 8.75 的绝对改进。

RCAgent: Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models
Authors Zefan Wang, Zichuan Liu, Yingying Zhang, Aoxiao Zhong, Lunting Fan, Lingfei Wu, Qingsong Wen
大语言模型LLM在云根本原因分析RCA中的应用最近得到了积极的探索。然而,当前的方法仍然依赖于手动工作流程设置,并且没有释放法学硕士的决策和环境交互能力。我们推出了 RCAgent,这是一种增强 LLM 自主代理框架的工具,用于实用且具有隐私意识的工业 RCA 使用。 RCAgent 在内部部署的模型而不是 GPT 系列上运行,能够使用工具进行自由形式的数据收集和全面分析。我们的框架结合了各种增强功能,包括独特的动作轨迹自我一致性,以及一套用于上下文管理、稳定和导入领域知识的方法。我们的实验表明,在 RCA 预测根本原因、解决方案、证据以及当前规则涵盖或未发现的责任和任务的所有方面,RCAgent 均明显优于 ReAct,并通过自动指标和人工评估进行了验证。

Generative Pre-training for Speech with Flow Matching
Authors Alexander H. Liu, Matt Le, Apoorv Vyas, Bowen Shi, Andros Tjandra, Wei Ning Hsu
近年来,生成模型因其在需要估计和采样数据分布以生成高保真合成数据的任务中取得的显着成功而受到越来越多的关注。在语音领域,文本到语音合成和神经声码器是生成模型大放异彩的好例子。虽然生成模型已应用于语音的不同应用,但不存在直接对语音进行建模的通用生成模型。在这项工作中,我们向这个方向迈出了一步,展示了单个预训练的生成模型可以适应不同的下游任务,并具有强大的性能。具体来说,我们使用流匹配和屏蔽条件,在 6 万小时的未转录语音上预训练了一个名为 SpeechFlow 的生成模型。实验结果表明,预训练的生成模型可以使用特定于任务的数据进行微调,以匹配或超越现有的语音增强、分离和合成专家模型。

Enhancing Large Language Models for Secure Code Generation: A Dataset-driven Study on Vulnerability Mitigation
Authors Jiexin Wang, Liuwen Cao, Xitong Luo, Zhiping Zhou, Jiayuan Xie, Adam Jatowt, Yi Cai
大型语言模型法学硕士为代码生成带来了重大进步,使新手和经验丰富的开发人员都受益。然而,他们使用来自 GitHub 等开源存储库的未经净化的数据进行训练,会带来无意中传播安全漏洞的风险。为了有效缓解这种担忧,本文提出了一项全面的研究,重点从软件安全的角度评估和增强代码法学硕士。我们介绍 SecuCoGen 脚注 SecuCoGen 已作为补充材料上传,并将在出版后公开。 ,一个精心策划的数据集,针对 21 种关键漏洞类型。 SecuCoGen 包含 180 个样本,作为对代码生成、代码修复和漏洞分类这三个关键代码相关任务进行实验的基础,并高度重视安全性。我们的实验结果表明,现有模型常常忽视代码生成过程中的安全问题,从而导致易受攻击的代码的生成。为了解决这个问题,我们提出了有效的方法来减轻安全漏洞并增强法学硕士生成的代码的整体稳健性。此外,我们的研究还发现了现有模型修复易受攻击代码的能力的弱点,即使提供了漏洞信息也是如此。此外,某些漏洞类型给模型带来了挑战,阻碍了它们在漏洞分类方面的性能。

ZzzGPT: An Interactive GPT Approach to Enhance Sleep Quality
Authors Yonchanok Khaokaew, Thuc Hanh Nguyen, Kaixin Ji, Hiruni Kegalle, Marwah Alaofi
在当今世界,睡眠质量对于整体健康至关重要。虽然可穿戴传感器提供实时监控,但它们通常缺乏可操作的见解,导致用户放弃。本文深入探讨了技术在理解睡眠模式方面的作用。我们引入了一个两阶段框架,利用大型语言模型法学硕士,旨在提供准确的睡眠预测和可操作的反馈。利用 GLOBEM 数据集和法学硕士的合成数据,我们重点介绍了 XGBoost 等模型的增强结果。

TiC-CLIP: Continual Training of CLIP Models
Authors Saurabh Garg, Mehrdad Farajtabar, Hadi Pouransari, Raviteja Vemulapalli, Sachin Mehta, Oncel Tuzel, Vaishaal Shankar, Fartash Faghri
使大型基础模型保持最新数据本质上是昂贵的。为了避免不断重新训练的高昂成本,必须不断训练这些模型。由于缺乏任何大规模的持续学习基准或基线,这个问题变得更加严重。我们引入了第一组网络规模的 Time Continual TiC 基准,用于训练视觉语言模型 TiC DataCompt、TiC YFCC 和 TiC RedCaps,包含超过 12.7B 的时间戳图像文本对,时间跨度从 2014 年到 2022 年 9 年。我们首先使用我们的基准来策划各种动态评估,以衡量现有模型的时间鲁棒性。我们发现,与 OpenCLIP 存储库中最近训练的模型相比,在 2020 年之前对数据进行训练的 OpenAI CLIP 在我们策划的检索任务中从 2021 年到 2022 年损失了大约 8 个零射击精度。然后我们研究如何在时间连续数据上有效地训练模型。

Clinfo.ai: An Open-Source Retrieval-Augmented Large Language Model System for Answering Medical Questions using Scientific Literature
Authors Alejandro Lozano, Scott L Fleming, Chia Chun Chiang, Nigam Shah
已发表的医学文献的快速增长使得临床医生和研究人员很难及时跟上并总结最新的相关发现。虽然现在存在几种基于大型语言模型法学硕士的闭源摘要工具,但缺乏对其输出的严格和系统的评估。此外,缺乏高质量的数据集和适当的基准任务来评估这些工具。

CLAIR: Evaluating Image Captions with Large Language Models
Authors David Chan, Suzanne Petryk, Joseph E. Gonzalez, Trevor Darrell, John Canny
机器生成的图像描述的评估提出了一个有趣但持续的挑战。有效的评估措施必须考虑相似性的多个维度,包括语义相关性、视觉结构、对象交互、标题多样性和特异性。现有的精心设计的措施试图捕捉特定的方面,但无法提供与人类判断紧密一致的整体分数。在这里,我们提出了 CLAIR,这是一种利用大型语言模型 LLM 的零样本语言建模功能来评估候选字幕的新颖方法。在我们的评估中,与现有的衡量标准相比,CLAIR 表现出与人类对字幕质量的判断有更强的相关性。值得注意的是,在 Flickr8K Expert 上,CLAIR 相对于 SPICE 实现了 39.6 的相对相关性改进,相对于 RefCLIP S 等图像增强方法实现了 18.3 的相对相关性改进。此外,CLAIR 通过允许语言模型识别其分配分数背后的潜在推理来提供嘈杂的可解释结果。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(NLP,LLM,Papers,人工智能,自然语言处理,大语言模型,LLM,Prompt,文本生成,轻量化模型)