image

阅读文本大概需要 10 分钟。

目标场景

在移动互联网时代，很大一部分企业抛弃了传统的网站，选择将数据、服务整合到 App 端，因此 App 端无论是爬虫还是反反爬都显得尤为重要。

常见的 App 端的爬虫方式是利用 Appium 和 Airtest 驱动手机打开应用，操作页面，然后通过元素 ID 获取元素的内容，又或者借助 mitmproxy 捕获到请求的数据，最后将数据保存下来。

如果要完成复杂的操作，加快爬虫的效率，就必须破解 App 端的登录，获取一些关键的数据，直接模拟接口请求，达到快速高效地爬取数据的目的。

image

本篇文章的目的是带大家「破解 App 端的登录」这一操作。

ps：本文仅限技术交流，请勿用于其他用途。

准备工作

在开始编写脚本之前，需要做好如下准备工作

待破解的 APK 应用，可去官网或者各大应用市场去下载，然后安装应用到手机中
反编译工具，MAC OSX 推荐 Android Crack Tool 工具集，Win OS 可以使用 dex2jar 来反编译 APK 应用包
源码浏览工具：jadx-gui
抓包工具：Charles 或者 Fiddler

编写脚本

第 1 步，确保手机配置好代理之后，就可以利用 Charles 对「获取****验证码」和「登录」进行抓包操作，得到请求地址、请求参数和请求头等数据。

image

第 2 步，对请求参数、请求头中「没有规律的数据」寻找生成的规律，并用 Python 代码来生成这些数据。

首先，我们查看获取验证码这一请求的参数，发现除了手机号码外，参数 t 可以很容易想到是请求的时间戳，唯独参数 token 在没有其他网络请求的情况下生成了。

def get_unix_time(type_13):
    """
    获取时间戳
    :param type_13:10位、13位，是否是13位
    :return:
    """
    t = time.time()

    if type_13:

        millis = int(round(t * 1000))
    else:
        millis = int(t)

    return millis

所以，我们大胆猜测：这个 token 是 App 端通过一定的逻辑生成的；****同理，请求头中 token 也是由 App 端生成。

在我们多次发起获取验证码的操作之后，我们得出一个规律：参数中的 token 保持不变，与请求时间没有关系；请求头的 token 会随着时间的变化的也会发生变化。

我们利用 Android Crack Tool 对 APK 应用进行反编译，得到源码 Jar 包。

image

然后就可以使用 jadx-gui 工具打开源码 Jar 包，通过请求地址中的「关键词：login」搜索源码，就能找到请求发送的位置。

image

由于应用源码打包的时候混淆了代码，因此，我们需要根据上面的搜索结果去定位参数初始化位置及实现逻辑。

image

逐步往上追溯应用源码，可以找到按钮点击事件的监听函数。

具体实现逻辑是把用户输入的手机函数传给混淆后的函数：b()

image

点击查看函数 b() 的实现逻辑，会发现方法中对手机号码进行了截取，获取当前日期时间，进行字符串的「第一次拼接」操作。

image

对第一部分的拼接我们用 Python 代码进行实现。

def __get_param_token(self, phone_num):
        """
        获取参数Token
        :return: BNpK8SMDiV6jTU4DR99A9vYoN9e90yBd
        """
        today = datetime.date.today()
        formatted_today = today.strftime('%Y%m%d')

        formatted_day = today.strftime('%m%d')

        # 参数1  手机号码|完整日期6位
        arg1 = phone_num + "|" + formatted_today
        
        # 手机号码后4位+日期包含月、日
        # 参数2  64230704
        # 字符串转为bytes
        arg2 = bytes(phone_num[7:] + formatted_day, encoding="utf8")

第一次拼接完成之后，我们发现又调用了一个函数 a()，参数为上面拼接生成的两个变量。

函数 a() 的内部使用「DES + Base64」加密算法来进行第二步的处理。

image

加密的操作用 Python 可以很轻松的实现。

def encode(arg1, arg2):
    """
    加密
    :param arg1:11位手机号码|完整日期 string
    :param arg2:手机后4位+日期4位  bytes
    :return:
    """
    des = DES.new(arg2, mode=DES.MODE_CBC, iv=bytearray([1, 2, 3, 4, 5, 6, 7, 8]))
    msg = des.encrypt(pad(arg1.encode(), DES.block_size))

    # 加密后的结果,bytes
    encode_result = base64.b64encode(msg)

    # 转为string
    return str(encode_result, encoding='utf-8')

需要注意的是，b()函数的最后一行，对第二步生成的字符串进行了特殊字符的替换操作，生成 Token 之前需要对数据进行同样的处理。

image

通过以上三步操作，就可以生成网络请求中的参数 Token。

同样的方式，针对请求中的 Token，我们通过查询 token 关键字查询源码。

image

通过观察，我们发现类 e 中的 b()函数的功能就是往请求中添加请求头，继续查看函数 b() 的实现类，发现这个类也全部被混淆了。

image

如果你细心一点，一定会发现当前实现类的包名是 Okhttp3，我们可以从 Github 下载 Okhttp3 的源码，然后进行对比，就能很清晰的知道里面的实现逻辑了。

ps：okhttp 是 Android 使用很多一个网络请求库。

image

通过对比没有混淆过的代码，可以很容易的编写出生成请求头中 Token 的逻辑。

def __get_head_token(self, method, url, data):
        """
        获取请求头Token
         分为Get和Post请求方式
        :param method: 请求方式
        :param url: 请求URL
        :param data: Post请求中的参数
        :return:
        """
        today = datetime.date.today()
        formatted_today = today.strftime('%Y%m%d')

        if method == Method.GET:
            # 请求的URL的query部分
            query_content = url.split('?')[1]
        else:
            query_content = urlencode(data)

        print('query_content:' + query_content)

        # 根据反编译后的源码增加对应的逻辑
        token_pro = query_content + "|" + formatted_today + '|zxw'

        # MD5计算
        token = md5(token_pro)

        return token

至此，这一步就完成两个 Token 的生成。

第 3 步就可以利用 Python「模拟发起一个请求」，来获取手机验证码了。

def get_code(self, timestamp):
    """
    获取验证码
    :return:
    """

    # 1.1 获取参数Token,与日期有关
    self.param_token = self.__get_param_token(self.phone)
    print("parm_token:" + self.param_token)

    # 1.2 获取请求头Token，与时间有关
    url = self.code_url.format(self.phone, timestamp, self.param_token)

    # 获取请求头中的Token
    self.head_token = self.__get_head_token(Method.GET, url, None)

    print('head_token【获取验证码】:' + self.head_token)

    # 2.获取手机验证码的URL
    get_code_url = self.code_url.format(self.phone, timestamp, self.param_token)

    # 3.修改Head中的token
    HEADERS['token'] = self.head_token

    print(get_code_url)

    # 4.发起【获取验证码】的请求
    resp = requests.get(get_code_url, headers=HEADERS)

    print('==' * 60)
    print(resp.text)

同理，后面的登录请求也是先通过抓包，使用上面生成的 Token 逻辑去修改请求头中 Token，然后模拟请求，就可以正常登录了。

def login(self, code, timestamp):
    """
    登录
    :return:
    """

    # 修改参数
    self.login_params['loginCode'] = code
    self.login_params['t'] = timestamp

    # 请求token
    # url = self.code_url.format(self.phone, timestamp, self.param_token)
    self.head_token = self.__get_head_token(Method.POST, None, self.login_params)

    print('head_token【登录】:' + self.head_token)

    HEADERS['token'] = self.head_token

    # 登录
    resp = requests.post(self.login_url, data=self.login_params, headers=HEADERS)

    print(resp.text)

结果结论

通过模拟获取验证码的请求，等待手机收到验证码之后，输入验证码，然后再模拟登录的请求，就可以获取登录成功后的令牌。

image

由于验证码是由服务器产生的，这里没法获取生成逻辑，但是针对安卓手机可以监听通知栏消息元素，拿到短信验证码进行自动填入，就不需要人工输入了。

image

拿到登录令牌之后，理论上 App 上页面的各类网络请求都可以利用 Python 去模拟，后面提供的源码包含了一个完整抢票的流程。

本文首发于公众号「 AirPython 」，关注公众号后，回复「 App登录 」即可获得所有源码。

如果你觉得文章还不错，请大家点赞分享下。你的肯定是我最大的鼓励和支持。

推荐阅读：

10万+的短视频被批量生产了，Python表示不服

薅羊毛 | 揭秘闲鱼方案，一部手机，实现随时随地薅羊毛

App爬虫篇 - 破解移动端登录，助力 Python 爬虫

目标场景

准备工作

编写脚本

结果结论

你可能感兴趣的:(App爬虫篇 - 破解移动端登录，助力 Python 爬虫)

App爬虫篇 - 破解移动端登录，助力 Python 爬虫

目 标 场 景

准 备 工 作

编 写 脚 本

结 果 结 论

你可能感兴趣的:(App爬虫篇 - 破解移动端登录，助力 Python 爬虫)

目标场景

准备工作

编写脚本

结果结论