UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS

UNDERSTANDING HTML WITH LARGE LANGUAGE

MODELS

相关链接:arXiv
关键字:大型语言模型HTML理解Web自动化自然语言处理机器学习

摘要

大型语言模型(LLMs)在各种自然语言任务上表现出色。然而,它们在HTML理解方面的能力——即解析网页的原始HTML,对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型(经过微调的LLMs)提供了深入分析,并在三个任务上评估了它们的能力:(i)HTML元素的语义分类,(ii)HTML输入的描述生成,以及(iii)HTML页面的自主Web导航。尽管之前的工作已经为HTML理解开发了专门的架构和训练程序,但我们展示了在标准自然语言语料库上预训练的LLMs可以非常好地转移到HTML理解任务上。例如,经过微调的LLMs在语义分类上的准确率比仅在任务数据集上训练的模型高出12%。此外,当在MiniWoB基准数据上进行微调时,LLMs使用的数据量比之前最好的监督模型少192倍,成功完成任务的数量增加了50%。我们评估的LLMs中,我们展示了基于T5的模型由于其双向编码器-解码器架构而成为理想的选择。为了促进对LLMs进行HTML理解的进一步研究,我们创建并开源了一个从CommonCrawl中提取并自动标记的大规模HTML数据集。

核心方法

本文提出的核心方法包括:

  1. 自主Web导航:评估模型如何在多页网站中导航,作为顺序决策问题。
  2. 语义分类:要求模型将给定的HTML元素分类到一组类别中,如地址、电子邮件、密码等。
  3. 描述生成:给定一个HTML片段,模型需要生成自然语言描述。

实验说明

实验结果数据展示了在不同任务上微调LLMs的性能。数据集包括MiniWoB、注释购物网站页面和CommonCrawl。实验使用了不同大小和架构的预训练LLMs,包括编码器-解码器和解码器-仅模型。实验结果表明,预训练的LLMs在所有任务上都表现出色,特别是在数据效率上比从零开始训练的模型有显著提升。

任务 数据集 模型 准确率/成功率
自主Web导航 MiniWoB WebN-T5-3B 51.8% 成功率
语义分类 注释购物网站 WebC-T5-3B 87.7% 准确率
描述生成 CommonCrawl WebD-T5-3B 84.0% 准确率

结论

我们提出了用于HTML理解的规范任务和微调LLMs。通过一系列架构、数据集大小和基线的全面评估和分析,我们得出了主要结论。我们发现,预训练对于性能至关重要,可以减少标记数据需求,提高样本效率高达200倍;模型架构是第二重要的因素,基于T5的模型在所有任务上表现最佳;在给定模型训练和推理性能的情况下,应评估模型大小,因为模型大小与性能呈亚线性相关。最后,提出的HTML理解任务突出了当前LLMs的相对短上下文窗口限制,为未来研究提供了可能性,这些研究将纳入或消除此限制。

你可能感兴趣的:(LLM,语言模型,人工智能,自然语言处理)