【Java网络编程05】网络原理进阶(三)

1. HTTP协议概述

HTTP协议:又被称为"超文本传输协议",是一种使用非常广泛的应用层协议,我们之前在文件章节介绍过文本文件与二进制文件的区别,文本可以看做字符串(能在utf8/gbk等编码表中查找到合法字符),我们有必要区分文本、超文本、富文本之间的区别。

  1. 文本:能在码表中查找到对应的合法字符,可以使用记事本打开查看的内容
  2. 超文本:在文本的基础上,还可以携带一些图片等特殊格式内容,如HTML文件
  3. 富文本:比超文本的内容更加全面,可以调整行间距等等具体格式,例如word等文件

HTTP版本:HTTP协议诞生于1991年,较常见的版本有HTTP1.0、HTTP1.1、HTTP2.0、HTTP3.0,但是目前主流使用的仍然是HTTP1.1与HTTP2.0版本,本篇文章主要围绕的也是HTTP1.1版本。

HTTP往往是基于传输层的TCP实现的,只有HTTP3.0是基于UDP实现的

HTTP应用领域:HTTP协议最常见的应用领域就是"网站开发",即实现浏览器与服务器之间的数据传输,后端(服务器端)通常是HTTP服务器,前端(浏览器端)通常是浏览器
【Java网络编程05】网络原理进阶(三)_第1张图片
HTTP协议的交互方式是如图所示"一问一答型",对于基本的网站开发来说是够用的,但是网站开发中我们经常能看到如下的情景:
【Java网络编程05】网络原理进阶(三)_第2张图片
这种类似于"QQ"对话框的实现就不是HTTP协议所能做到的了,其通信模型可以简化如下:
【Java网络编程05】网络原理进阶(三)_第3张图片
可以看出,这不是"一问一答型",这个场景需要服务器主动给浏览器发送消息,这个功能业界也叫做消息推送,所以应用层除了HTTP协议之外,还有一个与之搭配的协议称为"websocket",可以补充HTTP协议所办不到的功能

2. HTTP报文格式

2.1 抓包工具

Fiddler:是一款专注于HTTP、HTTPS协议的抓包工具,本质上是一个"代理程序",可以获取到网络上传输的数据包并展示给程序员用以分析调试程序
注:我知道很多小伙伴在计算机网络课堂上使用过WireShark等工具,但是相比于这种"高大全"的工具,fiddler专注于HTTP协议数据包,且使用更加简单方便,也是我们后端开发程序员经常使用的工具!因此我推荐这款工具

安装地址:https://www.telerik.com/fiddler/)

代理程序:再来谈谈有关代理的概念,代理本身也是一种程序,可以实现数据包的转发效果,市面上所谓的""很多也是通过代理实现的,Fiddler等工具就是通过获取到浏览器向服务器发送的HTTP请求数据包,然后由Fiddler转发给服务器,服务器返回HTTP响应数据包后也是由Fiddler获取到,然后再转发给浏览器,此时Fiddler就能够非常了解数据的传送过程以及具体的格式内容
【Java网络编程05】网络原理进阶(三)_第4张图片
代理也有正向代理、反向代理之分,感兴趣的小伙伴可以自行查阅资料!

2.2 HTTP报文格式

下面我们就通过访问www.baidu.com网站为例进行抓包分析

  1. 在Fiddler工具中使用快捷键ctrl + A + DEL 删除所有数据包
  2. 打开浏览器输入www.baidu.com,按下回车
  3. 打开Fiddler呈现如下数据包

image.png
其中显示蓝色的部分表示返回的是一个HTML格式数据,通常是访问一个网站的入口

  1. 选中数据包双击显示明细,右上角呈现请求报文格式,右下角显示响应报文格式,点击Raw可以显示原始数据样式

【Java网络编程05】网络原理进阶(三)_第5张图片

2.2.1 HTTP请求报文格式

【Java网络编程05】网络原理进阶(三)_第6张图片
HTTP请求报文一共有以下四部分组成:

  1. 首行:如GET https://www.baidu.com/ HTTP/1.1,表明请求方法为GET,访问URL为https://www.baidu.com/ ,HTTP版本号为1.1,三者之间用空格来分隔
  2. 请求头(header):如Host: www.baidu.com等等键值对格式都是请求头中的内容,每个键值对用换行分隔,键和值之间使用:空格分隔,图中第二行到最后一行都是请求头的内容
  3. 空行:请求头最下方有一个空行,这个空行可以用作结束标记
  4. 正文(body):HTTP请求报文的载荷部分,可以有也可以没有

2.2.2 HTTP响应报文格式

【Java网络编程05】网络原理进阶(三)_第7张图片
HTTP响应报文一共有以下四部分组成:

  1. 首行:如HTTP/1.1 200 OK,表明HTTP协议版本为1.1,响应状态码为200,响应描述信息是OK,三者之间用空格来分隔
  2. 响应头(header):如Content-Type: text/html; charset=utf-8等等键值对格式都是相应头中的内容,每个键值对用换行分隔,键和值之间使用:空格分隔
  3. 空行:响应头最下方有一个空行,这个空行可以用作结束标记
  4. 正文(body):HTTP响应报文的载荷部分,通常来说会携带

2.3 报文详细字段

2.3.1 认识URL

URL与URI:URL全程统一资源定位符,URI全程统一资源标识符,严格的来说URI的表示范围大于URL,上述我们看到的https://www.baidu.com/就是最简单的URL,描述了网络资源所处的位置,一个完整的URL结构如下:
【Java网络编程05】网络原理进阶(三)_第8张图片

  • 协议方案名:表示协议名称
  • 登录信息(认证):因为不够安全,已经逐渐淘汰
  • 服务器地址:表示服务器所在位置,域名也可以使用IP地址
  • 服务器端口号:表示访问的服务器的应用程序所处端口号,如果不带端口号则使用默认的协议端口号,如HTTP协议的80端口号,HTTPS协议的443端口号
  • 带层次的文件路径:访问资源在服务器指定应用程序的文件目录
  • 查询字符串:浏览器传递给服务器信息的重要途径,是请求内容的补充说明(很重要,后续单独讨论)
  • 片段标识符:用来标识当前页面的哪个部分,可以实现页面内部跳转(如Vue官网就使用到了)

URL encode:我们谈论到有关查询字符串中带有一些字符如**&有具体含义,此时如果我们想要携带的信息也带有&符号该怎么办呢?又或者如果我们携带的数据中带有中文字符怎么办呢?此时我们就需要使用URL encode**进行编码传输,我们可以使用十六进制表示并在前面加上%的形式进行转义

例如:我们在百度上搜索"米饭"二字,对应的URL就变为[https://www.baidu.com/s?wd=%E7%B1%B3%E9%A5%AD](https://www.baidu.com/s?wd=%E7%B1%B3%E9%A5%AD),其中%E7%B1%B3%E9%A5%AD就是对应中文的url encode码

注意:在查询字符串中带有中文或者需要转义的内容时,一定要设置url encode!!!

你可能感兴趣的:(java,网络)