诗小图: 古典诗词对话机器人

关于诗小图

因斑驳而绚烂,因腐朽而芬芳。

我是诗小图,七年前出生于清华大学图书馆,今年五千岁。


摘要:

        诗小图是一个应用于古典诗词知识服务的任务型和闲聊型相结合的对话机器人。

        诗小图提供了关于诗词领域的六大功能:诗人简介,诗人知识图谱,诗词风骚榜,九歌诗词创作,搜诗,搜韵。她还利用人工智能标记语言(AIML)和深度神经网络(DNN)实现了闲聊问答功能,以及包括关于机器人属性和常见聊天话题的回复功能。   

        同时,通过关联各种开放数据源,并据此建立非结构化的漫关联机制,诗小图可以提供脉络清晰的可视化古典诗词知识图谱。

作品说明:

        诗小图的人设是一个10后的中国古典诗词小迷妹,她不仅具有丰富的诗韵和格律知识,更吟咏有七步之才,评撰得九鼎之力,写诗评诗俱得要领。酷!!!

        作为一个对话机器人,她的语言能力不仅来源于基于人工智能标记语言(AIML)和深度神经网络(DNN)的自然语言理解技术,更来自包括上海图书馆开放数据API在内的多个开放数据和应用接口,通过名词实体识别算法,诗小图从对话中获取有意义的名词(比如人名),并据此访问各个相关的开放数据API,从而建立起非结构化的知识漫关联图谱。

        诗小图的实现有赖于以下开放数据和开放应用功能接口:

i.       上海图书馆开放数据应用开发竞赛(2019)应用程序接口

ii.      哈佛中国历代人物传记资料库

iii.     搜韵开放接口2.0

iv.     诗词风骚榜

v.      清华大学自然语言处理与社会人文计算实验室中文词法分析工具包THULAC

vi.     清华大学自然语言处理与社会人文计算实验室九歌计算机诗词创作系统

vii.    清华大学人工智能实验室交互式人工智能课题组多功能对话系统

        诗小图的主要创新点在于利用人工智能技术,构建了一个具有高扩展性地容纳各种文字型开放数据源的知识关联平台,并以命名实体识别(NER)的结果为线索,可视化、多层次地展示知识关联关系的图谱。

诗小图功能说明

一、后台功能说明

1. 综述

诗小图是应用于诗词领域的任务型和闲聊型相结合的对话机器人。在任务方面诗小图提供了关于诗词领域的六大功能:诗人简介,诗人知识图谱,诗词风骚榜,九歌诗词创作,搜诗,搜韵。在闲聊方面,诗小图利用人工智能标记语言(AIML)和深度神经网络(DNN)实现了闲聊问答功能,包括关于机器人属性和常见聊天话题的回复功能。

2. 应用数据源

i. 上海图书馆开放数据应用开发竞赛(2019)应用程序接口

ii. 哈佛中国历代人物传记资料库

iii. 搜韵开放接口 2.0

iv. 诗词风骚榜

v. 清华大学自然语言处理与社会人文计算实验室中文词法分析工具包THULAC

vi. 清华大学自然语言处理与社会人文计算实验室九歌计算机诗词创作系统

vii. 清华大学人工智能实验室交互式人工智能课题组多功能对话系统

3. 诗人简介

诗小图的诗人简介功能基于上海图书馆开放数据应用开发竞赛(2019)应用程序接口和哈佛中国历代人物传记资料库实现。我们使用清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包THULAC 进行用户输入语句的词法分析。当词法分析出输入语句中出现人名时,诗小图会调用上海图书馆开放数据应用开发竞赛(2019)应用程序接口和哈佛中国历代人物传记资料库进行人名的检索,如果发现具有诗人身份的结果,会继续调用接口获取详细的诗人信息。之后通过解析,将格式化的知识库组织成自然语言文本作为诗人简介返回。

4. 诗人知识图谱

诗小图的诗人知识图谱功能基于上海图书馆开放数据应用开发竞赛(2019)应用程序接口和哈佛中国历代人物传记资料库实现。同诗人简介技术相同,在调用接口获取详细的诗人信息之后,后台通过解析将诗人的友人关系,子女关系,父母关系等,组织成统一的知识图谱格式返回。

当使用者在于诗小图聊天时,小程序分析聊天内容的关键词,推送关键词的说明,并以漫关联的方式返回相关知识点及其关系,使用者可以继续聊天或者点选返回的相关知识点,如此循环往复,就如同在知识海洋中漫步。同时,小程序按照时间顺序串联所有关键词,形成知识图谱,其中关键词,相关知识点作为知识图谱的实体,关联关系作为实体关系。

流程图如下:


5. 诗词风骚榜

诗小图的诗词风骚榜功能基于张成昱先生对二十一世纪现代中国人所创作的旧体诗词进行评价排名而编制的“二十一世纪旧体诗词风骚榜”实现。风骚榜根据诗词体裁共分为七个榜单,分别是:五绝,七绝,五律,七律,词长调,词小调,杂作。每一个榜单提供了前十名的诗词,并且提供了一部分高质量的诗词作为榜外篇。用户通过点击风骚榜并且选择榜单类别即可获得相应榜单中的前三名诗词,点击更多可以获取全部内容。

6. 九歌诗词创作


图 1.九歌神经网络模型示意图

上图引自Yi, Xiaoyuan, et al. "Chinese poetry generation with a working memory model." Proceedings of the 27th International Joint Conference on Artificial Intelligence. AAAI Press, 2018.

        诗小图的九歌诗词创作功能基于清华大学自然语言处理与社会人文计算实验室的九歌计算机诗词创作系统实现。九歌诗词创作功能提供了不同体裁诗词的创作功能,包括五言/七言藏头诗,五言/七言绝句诗,以及二十个词牌的诗词。用户通过选择不同的诗词体裁并且输入想要创作的诗词主题词即可完成在线的诗词创作。

7. 搜诗

        诗小图的搜诗功能基于搜韵开放接口 2.0实现。搜诗功能提供了作者,题目,内容,和全部三个范围的诗词搜索。用户通过选择不同的诗词搜索范围并且输入想要搜索的关键词即可完成诗词查询。

8. 搜韵

        诗小图的搜韵功能基于搜韵开放接口 2.0实现。搜韵功能提供了韵典,词首,词末,诗句,和全部五个范围的搜索功能。用户通过选择不同的搜索范围并且输入想要搜索的关键词即可完成搜韵查询。

9. 闲聊


图 2.AIML 示意图引自Marietto, Maria das Graças Bruno, et al. "Artificial intelligence markup language: A brief tutorial." arXiv preprint arXiv:1307.3091 (2013).  


图 3. 闲聊对话的DNN模型示意图引自Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio. "Neural machine translation by jointly learning to align and translate." arXiv preprint arXiv:1409.0473 (2014).

诗小图的闲聊功能基于多种技术实现,主要包括以下三种:人工智能标记语言(AIML),信息检索模型,和深度神经网络(DNN)。人工智能标记语言(AIML)为诗小图提供了理解特定模式用户问题并且回答的能力,其通过人工构造的规则模板为诗小图提供了关于认知、评价、感情、喜好等十二个领域的问题回答能力。信息检索模型提供了关于诗小图机器人属性的常见问题 FAQ 的回答能力,其问答库除了包含人工构造的诗小图的人设问题,还有使用人工神经网络自动生成的问答语料,以匹配更多的问题。深度神经网络(DNN)则是在全部对话功能模块之外,提供了由神经网络自动理解并且生成闲聊回复的能力,其主要包含两个部分:生成网络和排序网络。生成网络将用户问题语句输入后由 编码器Encoder进行语义的编码和识别,之后通过注意力机制由解码器 Decoder 生成合适的回复。在解码阶段,我们使用了柱搜索 Beam Search 算法为同一问题生成若干回复,通过后处理算法后输入排序网络进行相关性打分排序,最后选择相关性得分最高的回复作为闲聊回复返回给用户。

你可能感兴趣的:(诗小图: 古典诗词对话机器人)