Nicolas23

【SQL】学习笔记-4

1、ABtest

A/B测试是一种统计学方法，用于比较两个或多个版本的效果，以确定哪个版本在特定指标上表现更佳。以下是进行A/B测试的一些最佳实践：

明确目标：在开始之前，你需要确定实验的目的和预期结果。比如提高转化率、增加用户参与度或提升用户体验。
定义假设：基于你的目标，提出可测试的假设。例如，如果你认为改变按钮颜色可以提高点击率，那么你的假设就是“绿色按钮比红色按钮有更高的点击率”。
选择关键指标：挑选能够衡量实验效果的关键性能指标（KPIs），如点击率（CTR）、转化率（CVR）、用户留存率等。
设计实验：确定你的实验设计，包括变量（如UI元素、价格、营销信息等）和控制组（原版本）与实验组（新版本）。
样本量计算：计算所需的样本量以确保统计显著性。可以使用在线样本量计算器来帮助你确定需要多少参与者才能得到可靠的结果。
随机分配：确保参与者随机分配到控制组和实验组，以避免任何偏差。
进行实验：在预定的时间内运行实验，并确保所有组别在相同条件下进行测试。
监控和调整：在实验期间监控关键指标和用户反馈，如果必要，根据实时数据调整实验。
分析数据：实验结束后，使用统计分析来确定结果是否具有显著性。注意避免常见的统计错误，如多重比较和连续观察。
结果解释：基于数据做出结论。如果实验结果显著，并且你有信心变化是由实验变量引起的，那么可以考虑将实验组的变量应用到更广泛的用户群体中。
文档记录：记录实验的详细信息，包括假设、设计、结果和结论，以便于未来的参考和持续改进。
持续迭代：A/B测试是一个持续的过程，不断测试和学习，以优化产品或服务。
使用工具：考虑使用A/B测试工具来简化流程，如Google Optimize、Optimizely等。
跨功能协作：确保团队成员（如产品经理、设计师、工程师和数据分析师）之间有良好的沟通和协作。
考虑伦理：确保测试遵守数据保护法规和道德标准，尊重用户隐私。

记住，A/B测试不仅仅是一个技术过程，它还涉及到对业务目标的深入理解和对用户行为的敏锐洞察。

2、sql经典题

窗口函数具备了我们之前学过的group by子句分组的功能和order by子句排序的功能。那么，为什么还要用窗口函数呢？

这是因为，group by分组汇总后改变了表的行数，一行只有一个类别。而partiition by和rank函数不会减少原表中的行数

select *,
   sum(成绩) over (order by 学号) as current_sum,
   avg(成绩) over (order by 学号) as current_avg,
   count(成绩) over (order by 学号) as current_count,
   max(成绩) over (order by 学号) as current_max,
   min(成绩) over (order by 学号) as current_min
from 班级表

用途：可以在每一行的数据里直观的看到，截止到本行数据，统计数据是多少（最大值、最小值等）。同时可以看出每一行数据，对整体统计数据的影响。
备注：对于sum和count，相当于是累计值；等于一个整体就是一个parttion，内部的全部order再聚合；不改变原表的行数。

partition子句可是省略，省略就是不指定分组，只是按成绩由高到低进行了排序：

select *,
   rank() over (order by 成绩 desc) as ranking
from 班级表

select *
from 班级表
order by 成绩 desc

连续n天

方法1：窗口函数新建2列日期，然后datediff 2次都等于1

SELECT user_id
FROM
   (SELECT user_id
       ,DATE(log_time) AS log_date
       ,LEAD(DATE(log_time), 1) OVER(PARTITION BY user_id ORDER BY log_time) AS l1
       ,LEAD(DATE(log_time), 2) OVER(PARTITION BY user_id ORDER BY log_time) AS l2
    FROM login_tb
   ) AS t
WHERE DATEDIFF(l1,log_date) = 1
  AND DATEDIFF(l2,l1) = 1
  AND user_id IN (SELECT user_id FROM register_tb)
ORDER BY user_id;

方法2：窗口函数建立1列rank，然后 date_sub(log_time,interval rk day) as diff, 再having count(difftime)>=3

select user_id 
from (
  select user_id,
  date_sub(log_time,interval rk day) as difftime
  from (
      select user_id,
      date(log_time) as log_time,
       row_number()over(partition by user_id order by date(log_time)) as rk
      from login_tb where user_id in (select user_id from register_tb)
) t1
) t2
group by user_id,difftime
having count(difftime)>=3
order by user_id

方法3：自连接2次，用户一样，但是日期分别-1、-2，然后排序即可，

select a.user_id from login_tb as a
inner join login_tb as b 
on a.user_id = b.user_id and date(a.log_time)=date(b.log_time)-1 
#自联结，条件是某一用户存在第二天的登录记录
inner join login_tb as c 
on b.user_id = c.user_id and date(b.log_time)= date(c.log_time) -1 
#再次自联结，条件是某一用户存在第三天的登录记录
where a.user_id in (select user_id from register_tb) #筛选出新用户
order by a.user_id#排序

总留存率

链接：https://www.nowcoder.com/questionTerminal/16d41af206cd4066a06a3a0aa585ad3d?toCommentId=20619649

方法1：left join

  select round(count(t2.user_id)/COUNT(t1.user_id),3)  p from
 (select user_id,min(date) date1 from  login 
 group by  user_id)  t1    #首日，用户&日期，分母
 left  join 
 (select user_id, date from  login) t2   # 所有日期和用户的组合，分子
 on t1.user_id=t2.user_id 
 and datediff(t1.date1,t2.date)=-1

方法2：组合查询，where (user_id,date) in 首日作为分母，次日作为分子；即组合次日也在，注意不能直接 min(date)+1

select  
ROUND(count(DISTINCT user_id)/(select count(DISTINCT user_id) FROM  login),3)  AS P
from  login   
where (user_id,date)  in (select user_id, DATE_ADD(min(date), INTERVAL 1 DAY) 
                          from login 
                          group by user_id)

方法3：窗口函数

select round(count(distinct a.user_id)/(select count(distinct user_id) from login),3)
from
  (select *,
   min(date) over(partition by user_id) firstda from login
  ) a
where datediff(date,firstday)=1;

最近一天登录的设备

链接：https://www.nowcoder.com/questionTerminal/7cc3c814329546e89e71bb45c805c9ad?toCommentId=20616815

方法1：开窗

select u.name,c.name, l.date from
(select user_id,client_id,date,
rank () over (partition by user_id order by date desc) r
from login) l,
user u,client c
where l.r=1
and u.id=l.user_id
and c.id=l.client_id    
order by 1

方法2：join


select  u.name,c.name,l.date from  login l,user u,client c
where (user_id,date) in
(select  user_id,max(date)   from  login
group by user_id)
and u.id=l.user_id
and c.id=l.client_id    
order by 1

按天的留存率

按天的留存率：(SQL264 牛客每个人最近的登录日期(五)

方法1：join

select t0.date,
ifnull(round(count(t2.user_id)/count(t1.user_id),3) ,0)
from
    (select min(date) md,user_id from  login
    group by user_id)  t1  #分母
left join 
    (select date,user_id from  login )  t2   #分子
on  t1.user_id=t2.user_id and datediff(t2.date,t1.md)=1 
right join (select date from login group by date ) t0  #每天 
on t0.date=t1.md
group by 1



SELECT a.date,ROUND(COUNT(DISTINCT login.user_id)/ COUNT(a.user_id),3) AS p
FROM (SELECT user_id,MIN(date) AS date FROM login GROUP BY user_id) AS a
LEFT JOIN login
ON login.user_id=a.user_id
AND login.date=DATE_ADD(a.date,INTERVAL 1 DAY)
GROUP BY a.date
UNION
SELECT date,0.000 AS p
FROM login
WHERE date NOT IN(
SELECT MIN(date) FROM login GROUP BY user_id)
ORDER BY date;

方法2： case when （用户+日期）组合查询

SELECT date,IFNULL(ROUND(
SUM(CASE WHEN 
       (user_id,date) IN (SELECT user_id,DATE_ADD(date,INTERVAL -1 DAY) FROM login)
       AND     
       (user_id,date) IN (SELECT user_id,MIN(date) FROM login GROUP BY user_id)     #分子组合
    THEN 1 ELSE 0 END)
/
SUM(CASE WHEN (user_id,date) IN (SELECT user_id,MIN(date) FROM login GROUP BY user_id)    #分母组合
THEN 1 ELSE 0 END),3),0) AS p
FROM login
GROUP BY date
ORDER BY date