dongzhiyan_hjp

一次降低进程IO延迟的性能优化实践——基于block层bfq调度器(下篇)

在上一篇《一次降低进程IO延迟的性能优化实践——基于block层bfq调度器》基础上，本文主要总结实现该IO性能优化过程遇到的 IO卡死、IO重复派发、内核crash等问题。

1：IO重复派发触发了crash

在初版代码编写完成后，启动fio测试+cat读取文件，有很大概率触发了内核crash，现场如下

PID: 11602 TASK: ffff95f3092ddf00 CPU: 3 COMMAND: "cat"
#0 [ffffa67081ceb390] machine_kexec at ffffffff8525bf3e
#1 [ffffa67081ceb3e8] __crash_kexec at ffffffff8536072d
#2 [ffffa67081ceb4b0] panic at ffffffff852b5dc7
#3 [ffffa67081ceb530] __warn.cold.12 at ffffffff852b5fee
#4 [ffffa67081ceb538] blk_mq_start_request at ffffffff856075d0
#5 [ffffa67081ceb560] blk_mq_start_request at ffffffff856075d0
#6 [ffffa67081ceb590] do_error_trap at ffffffff8521f9de
#7 [ffffa67081ceb5d0] do_invalid_op at ffffffff8521fe36
#8 [ffffa67081ceb5f0] invalid_op at ffffffff85c00d84
[exception RIP: blk_mq_start_request+496]
RIP: ffffffff856075d0 RSP: ffffa67081ceb6a0 RFLAGS: 00010202
RAX: 0000000000000001 RBX: ffff95f28fc57810 RCX: 0000000000000018
RDX: 00000000004b1dc2 RSI: ffff95f28fc57810 RDI: ffff95f297722758
RBP: ffff95f38f868000 R8: ffffa67081ceb7e8 R9: 0000000000000000
R10: 0000000000000000 R11: 0000000000000011 R12: ffff95f296143000
R13: ffff95f2987fe000 R14: ffff95f2987fe050 R15: ffffa67081ceb788
ORIG_RAX: ffffffffffffffff CS: 0010 SS: 0018
#9 [ffffa67081ceb6b8] scsi_queue_rq at ffffffff857d1a51
#10 [ffffa67081ceb708] blk_mq_dispatch_rq_list at ffffffff85609f4c
#11 [ffffa67081ceb7d8] blk_mq_do_dispatch_sched at ffffffff8560f4ba
#12 [ffffa67081ceb830] __blk_mq_sched_dispatch_requests at ffffffff8560ff99
#13 [ffffa67081ceb890] blk_mq_sched_dispatch_requests at ffffffff85610020
#14 [ffffa67081ceb8a0] __blk_mq_run_hw_queue at ffffffff856076a1
#15 [ffffa67081ceb8b8] __blk_mq_delay_run_hw_queue at ffffffff85607f61
#16 [ffffa67081ceb8e0] blk_mq_sched_insert_requests at ffffffff85610351
#17 [ffffa67081ceb918] blk_mq_flush_plug_list at ffffffff8560b4d6
#18 [ffffa67081ceb998] blk_flush_plug_list at ffffffff855ffbe7
#19 [ffffa67081ceb9e8] blk_mq_make_request at ffffffff8560ad38
#20 [ffffa67081ceba78] generic_make_request at ffffffff855fe85f
#21 [ffffa67081cebad0] submit_bio at ffffffff855feadc
#22 [ffffa67081cebb10] ext4_mpage_readpages at ffffffffc08eead1 [ext4]
#23 [ffffa67081cebbf8] read_pages at ffffffff8543743b
#24 [ffffa67081cebc70] __do_page_cache_readahead at ffffffff85437721
………………….

触发crash的源码位置如下

void blk_mq_start_request(struct request *rq)
{
struct request_queue *q = rq->q;
blk_mq_sched_started_request(rq);
trace_block_rq_issue(q, rq);
if (test_bit(QUEUE_FLAG_STATS, &q->queue_flags)) {
rq->io_start_time_ns = ktime_get_ns();
rq_aux(rq)->stats_sectors = blk_rq_sectors(rq);
rq->rq_flags |= RQF_STATS;
rq_qos_issue(q, rq);
}
WARN_ON_ONCE(blk_mq_rq_state(rq) != MQ_RQ_IDLE);//这里crash
blk_add_timer(rq);
//标记rq->state 为MQ_RQ_IN_FLIGHT，表示IO请求派发给磁盘驱动了
WRITE_ONCE(rq->state, MQ_RQ_IN_FLIGHT);
}
static inline enum mq_rq_state blk_mq_rq_state(struct request *rq)
{
return READ_ONCE(rq->state);
}

crash过程是：在把rq派发给磁盘驱动过程执行blk_mq_start_request()函数中，rq->state不是MQ_RQ_IDLE，然后就主动触发WARN_ON_ONCE而crash。按照经验，crash现场的RDI寄存器就是blk_mq_start_request()函数传输rq指针，看下这个rq的参数：

crash> request ffff95f297722758
__data_len = 0, //date_len 有问题
tag = -275282040, //tag 有问题
__sector = 18446638524612970376, //扇区地址明显有问题
bio = 0x0, //这个bio有问题
biotail = 0x0,
rq_disk = 0x0, /rq_disk 不可能是NULL
state = MQ_RQ_IDLE,

到这里怀疑rdi:0xffff95f297722758应该不是blk_mq_start_request()函数传参rq指针，因为打印的rq结构体变量根本不符合常理，对于不符合常理的就要另找他法。

因为这个case比较容易复现，大概率跟我在_bfq_dispatch_request()添加的代码有关。于是在blk_mq_start_request()和__bfq_dispatch_request()中添加一下调试信息，如下红色代码：

void blk_mq_start_request(struct request *rq)
{
struct request_queue *q = rq->q;
blk_mq_sched_started_request(rq);
trace_block_rq_issue(q, rq);
if (test_bit(QUEUE_FLAG_STATS, &q->queue_flags)) {
rq->io_start_time_ns = ktime_get_ns();
rq_aux(rq)->stats_sectors = blk_rq_sectors(rq);
rq->rq_flags |= RQF_STATS;
rq_qos_issue(q, rq);
}
printk("%s %s %d rq:0x%llx rq->rq_disk:0x%llx \n",__func__,current->comm,current->pid,(u64)rq,(u64)rq->rq_disk);
WARN_ON_ONCE(blk_mq_rq_state(rq) != MQ_RQ_IDLE);
blk_add_timer(rq);
//标记rq->state 为MQ_RQ_IN_FLIGHT，表示IO请求派发给磁盘驱动了
WRITE_ONCE(rq->state, MQ_RQ_IN_FLIGHT);
}
static struct request *__bfq_dispatch_request(struct blk_mq_hw_ctx *hctx)
{
..................
if(bfqd->bfq_high_io_prio_mode)
{
//在 bfq_high_io_prio_mode 非0时间的5s内，如果遇到非high prio io，并且驱动队列IO个数大于限制，则把不派发该IO，而是临时添加到bfq_high_prio_tmp_list链表
if((bfqd->rq_in_driver >= 16) && (bfqd->bfq_high_prio_tmp_list_rq_count < 100)){
//把rq从原有链表删掉并把rq移动到bfq_high_prio_tmp_list链表尾，派发时是从bfq_high_prio_tmp_list链表头取出rq，保证先到先派发
list_add_tail(&rq->queuelist,&bfqd->bfq_high_prio_tmp_list);
bfqd->bfq_high_prio_tmp_list_rq_count ++;
p_process_io_info_tmp->block_io_count ++;
printk("%s %s %d rq:0x%llx bfqq:0x%llx pid:%d bfqq->dispatched:%d bfq_high_prio_tmp_list_rq_count:%d rq_in_driver:%d !!!!!!!!!!!!\n",__func__,current->comm,current->pid,(u64)rq,(u64)bfqq,bfqq->pid,bfqq->dispatched,bfqd->bfq_high_prio_tmp_list_rq_count,bfqd->rq_in_driver);
goto exit1;
}
}
..................
}

等下次触发crash，内核打印 blk_mq_start_request cat 15092 rq:0xffff8eff2401d990 rq->rq_disk:0xffff8efe1b1b4000，看下它的成员信息：

crash> request 0xffff8eff2401d990
struct request {
__data_len = 1048576,
tag = 86,
__sector = 3468288,
bio = 0xffff8efd875e8300,
biotail = 0xffff8efd875e8300,
rq_disk = 0xffff8efe1b1b4000,
state = MQ_RQ_IN_FLIGHT,

看来，这次的rq指针是正确的，刚才通过rdi获取blk_mq_start_request()函数传参是有问题的。这个rq->state是MQ_RQ_IN_FLIGHT，就是说该rq已经派发给磁盘驱动了，在传输完成前又派发给磁盘驱动，显然重复了。再看下crash前的内核打印，印证了我的想法

//rq:0xffff8eff2401d990 这里被插入 bfq_high_prio_tmp_list_rq_count 链表
[ 132.559190] __bfq_dispatch_request cat 15092 rq:0xffff8eff2401d990 bfqq:0xffff8efe1ba0b200 pid:15092 bfqq->dispatched:17 bfq_high_prio_tmp_list_rq_count:1 rq_in_driver:16 !!!!!!!!!!!!1
//rq:0xffff8eff2401d990 被派发
[ 132.559244] blk_mq_start_request cat 15092 rq:0xffff8eff2401d990 rq->rq_disk:0xffff8efe1b1b4000
//rq:0xffff8eff2401d990 又被派发
[ 132.561350] blk_mq_start_request cat 15092 rq:0xffff8eff2401d990 rq->rq_disk:0xffff8efe1b1b4000
[ 132.561398] WARNING: CPU: 1 PID: 15092 at block/blk-mq.c:696 blk_mq_start_request+0x128/0x263
[ 132.561401] Kernel panic - not syncing: panic_on_warn set ...
[ 132.561409] CPU: 1 PID: 15092 Comm: cat Kdump: loaded Tainted: G E ---------r- - 4.18.0 #2
[ 132.561412] Hardware name: VMware, Inc. VMware Virtual Platform/440BX Desktop Reference Platform, BIOS 6.00 02/27/2020
[ 132.561414] Call Trace:
[ 132.561431] dump_stack+0x5c/0x80
[ 132.561437] panic+0xe7/0x2a9
[ 132.561443] ? blk_mq_start_request+0x128/0x263
[ 132.561447] __warn.cold.12+0x31/0x33
[ 132.561450] ? blk_mq_start_request+0x128/0x263
[ 132.561454] ? blk_mq_start_request+0x128/0x263
[ 132.561457] report_bug+0xb1/0xd0-

显然，rq:0xffff8eff2401d990就是被连续派发了两次，就得看看我添加的代码哪里有问题了？

static struct request *__bfq_dispatch_request(struct blk_mq_hw_ctx *hctx)
{
...............
rq = bfq_dispatch_rq_from_bfqq(bfqd, bfqq);
if (rq) {
if(bfqd->queue->high_io_prio_enable)
{
if(rq->rq_flags & RQF_HIGH_PRIO){//高优先级IO
//第一次遇到high prio io，置1 bfq_high_io_prio_mode，启动5s定时器，定时到了对bfq_high_io_prio_mode清0
if(bfqd->bfq_high_io_prio_mode == 0){
bfqd->bfq_high_io_prio_mode = 1;
hrtimer_start(&bfqd->bfq_high_prio_timer, ms_to_ktime(5000),HRTIMER_MODE_REL);
}
p_process_io_info_tmp->high_prio_io_count ++;
p_process_io_info_tmp->dispatch_io_count++;
}
else非高优先级IO
{
p_process_io_info_tmp->high_not_prio_io_count ++;
if(bfqd->bfq_high_io_prio_mode)
{
//在 bfq_high_io_prio_mode 非0时间的5s内，如果遇到非high prio io，并且驱动队列IO个数大于限制，则把不派发该IO，而是临时添加到bfq_high_prio_tmp_list链表
if((bfqd->rq_in_driver >= 16) && (bfqd->bfq_high_prio_tmp_list_rq_count < 100)){
//把rq从原有链表删掉并把rq移动到bfq_high_prio_tmp_list链表尾，派发时是从bfq_high_prio_tmp_list链表头取出rq，保证先到先派发
list_add_tail(&rq->queuelist,&bfqd->bfq_high_prio_tmp_list);
bfqd->bfq_high_prio_tmp_list_rq_count ++;
p_process_io_info_tmp->block_io_count ++;
///bug就出在这里，这里的rq添加到 bfq_high_prio_tmp_list 链表后，本次就不应该再派发了!!!!!!!!!但是却 goto exit1 ，该函数return rq返回该rq并派发了!!!!!!!!!!!!正确的做法是rq = NULL，赋值rq为NULL
goto exit1;
}
}
}
}
/*如果 bfq_high_prio_tmp_list 链表上有rq要派发，不执行这里的rq_in_driver++，在下边的exit那里会执行，当echo 0 >/sys/block/sdb/process_high_io_prio 置1再置0后，这个if判断就起作用了。没这个判断，这里会bfqd->rq_in_driver++，下边的if里再bfqd->rq_in_driver++，导致rq_in_driver泄漏*/
if((rq->rq_flags & RQF_HIGH_PRIO) || list_empty(&bfqd->bfq_high_prio_tmp_list)){
inc_in_driver_start_rq:
bfqd->rq_in_driver++;
start_rq:
rq->rq_flags |= RQF_STARTED;
}
}
exit:
//1:如果是高优先级IO该if不成立，直接跳过。 2:如果非高优先级IO，则把rq添加到bfq_high_prio_tmp_list尾，从链表头选一个rq派发 3:如果rq是NULL，则也从bfq_high_prio_tmp_list选一个rq派发
if(!direct_dispatch && ((rq && !(rq->rq_flags & RQF_HIGH_PRIO)) || !rq)){
if(!list_empty(&bfqd->bfq_high_prio_tmp_list)){
if(rq){
list_add_tail(&rq->queuelist,&bfqd->bfq_high_prio_tmp_list);
bfqd->bfq_high_prio_tmp_list_rq_count ++;
if(p_process_io_info_tmp)
p_process_io_info_tmp->block_io_count2++;
}
rq = list_first_entry(&bfqd->bfq_high_prio_tmp_list, struct request, queuelist);
list_del_init(&rq->queuelist);
bfqd->bfq_high_prio_tmp_list_rq_count --;
bfqd->rq_in_driver++;
rq->rq_flags |= RQF_STARTED;
}
}
exit1:
return rq;
}

问题就出在红色代码goto exit1哪里，那里的rq添加到 bfq_high_prio_tmp_list 链表后，本次就不应该再派发了，但是却 goto exit1 ，该函数return rq返回该rq并派发了。后续再从bfq_high_prio_tmp_list 链表链表取出该rq，就会导致rq重复派发了。解决方法很简单，先rq = NULL再goto exit1，这样就避免第一次派发该rq了。

2：派发IO时遇到卡死

2.1 因bfq_has_work()返回false导致一直卡死

上一个问题解决了，新的问题又来了。启动fio压测竟然卡死了，kill -9 fio进程也不行。系统有很多D进程，启动crash工具看下D进程信息

crash> ps -m | grep UN
[0 00:06:40.712] [UN] PID: 2767 TASK: ffff8cb3ff450000 CPU: 0 COMMAND: "fio"
[0 00:06:40.718] [UN] PID: 2780 TASK: ffff8cb3c9d5c740 CPU: 3 COMMAND: "fio"
[0 00:06:40.719] [UN] PID: 2773 TASK: ffff8cb3c9d317c0 CPU: 2 COMMAND: "fio"
[0 00:06:40.727] [UN] PID: 2769 TASK: ffff8cb3c9d0df00 CPU: 3 COMMAND: "fio"
[0 00:06:40.731] [UN] PID: 2778 TASK: ffff8cb3c9d5df00 CPU: 3 COMMAND: "fio"
[0 00:06:40.735] [UN] PID: 2772 TASK: ffff8cb3c9d08000 CPU: 3 COMMAND: "fio"
[0 00:06:40.738] [UN] PID: 2775 TASK: ffff8cb3c9d32f80 CPU: 3 COMMAND: "fio"
[0 00:06:40.742] [UN] PID: 2770 TASK: ffff8cb3c9d0af80 CPU: 3 COMMAND: "fio"
[0 00:06:40.744] [UN] PID: 2768 TASK: ffff8cb3c9d097c0 CPU: 2 COMMAND: "fio"
[0 00:06:40.757] [UN] PID: 2777 TASK: ffff8cb3c9d30000 CPU: 2 COMMAND: "fio"
[0 00:06:40.768] [UN] PID: 2782 TASK: ffff8cb3c9d597c0 CPU: 3 COMMAND: "fio"
[0 00:06:40.769] [UN] PID: 2764 TASK: ffff8cb3ff454740 CPU: 0 COMMAND: "fio"

看下栈回溯

crash> bt 2764
PID: 2764 TASK: ffff8cb3ff454740 CPU: 0 COMMAND: "fio"
#0 [ffffb2348279bb70] __schedule at ffffffffa84c8826
#1 [ffffb2348279bc08] schedule at ffffffffa84c8cb8
#2 [ffffb2348279bc18] rwsem_down_write_slowpath at ffffffffa7d105ed
#3 [ffffb2348279bc90] bfq_has_work at ffffffffc08054d2 [bfq]
#4 [ffffb2348279bca0] _cond_resched at ffffffffa84c8d95
#5 [ffffb2348279bcd8] ext4_file_write_iter at ffffffffc08c29bb [ext4]
#6 [ffffb2348279bd38] aio_write at ffffffffa7f31206
#7 [ffffb2348279be40] io_submit_one at ffffffffa7f31581
#8 [ffffb2348279beb8] __x64_sys_io_submit at ffffffffa7f31b82
#9 [ffffb2348279bf38] do_syscall_64 at ffffffffa7c0419b
#10 [ffffb2348279bf50] entry_SYSCALL_64_after_hwframe at ffffffffa86000ad
crash> bt 2780
PID: 2780 TASK: ffff8cb3c9d5c740 CPU: 3 COMMAND: "fio"
#0 [ffffb23482983b30] __schedule at ffffffffa84c8826
#1 [ffffb23482983bc8] schedule at ffffffffa84c8cb8
#2 [ffffb23482983bd8] rwsem_down_read_slowpath at ffffffffa84cbd05
#3 [ffffb23482983c88] ext4_direct_IO at ffffffffc08d6e5d [ext4]
#4 [ffffb23482983cf0] generic_file_read_iter at ffffffffa7e2da7f
#5 [ffffb23482983d38] aio_read at ffffffffa7f313a5
#6 [ffffb23482983e40] io_submit_one at ffffffffa7f3165b
#7 [ffffb23482983eb8] __x64_sys_io_submit at ffffffffa7f31b82
#8 [ffffb23482983f38] do_syscall_64 at ffffffffa7c0419b
#9 [ffffb23482983f50] entry_SYSCALL_64_after_hwframe at ffffffffa86000ad
crash> bt 2776
PID: 2776 TASK: ffff8cb3c9d34740 CPU: 2 COMMAND: "fio"
#0 [ffffb23482953958] __schedule at ffffffffa84c8826
#1 [ffffb234829539f0] schedule at ffffffffa84c8cb8
#2 [ffffb23482953a00] io_schedule at ffffffffa84c90d2
#3 [ffffb23482953a10] bit_wait_io at ffffffffa84c94dd
#4 [ffffb23482953a20] __wait_on_bit_lock at ffffffffa84c934d
#5 [ffffb23482953a58] out_of_line_wait_on_bit_lock at ffffffffa84c9421
#6 [ffffb23482953aa8] do_get_write_access at ffffffffc083ae68 [jbd2]
#7 [ffffb23482953b08] jbd2_journal_get_write_access at ffffffffc083b10c [jbd2]
#8 [ffffb23482953b28] __ext4_journal_get_write_access at ffffffffc08b63f6 [ext4]
#9 [ffffb23482953b58] ext4_reserve_inode_write at ffffffffc08d35a6 [ext4]
#10 [ffffb23482953b80] ext4_mark_inode_dirty at ffffffffc08d37d1 [ext4]
#11 [ffffb23482953bf0] ext4_dirty_inode at ffffffffc08d8a15 [ext4]
#12 [ffffb23482953c08] __mark_inode_dirty at ffffffffa7f0aa6a
#13 [ffffb23482953c40] generic_update_time at ffffffffa7ef76e6
#14 [ffffb23482953c50] file_update_time at ffffffffa7ef7b01
#15 [ffffb23482953c98] __generic_file_write_iter at ffffffffa7e2dd38
#16 [ffffb23482953cd8] ext4_file_write_iter at ffffffffc08c2761 [ext4]
#17 [ffffb23482953d38] aio_write at ffffffffa7f31206
#18 [ffffb23482953e40] io_submit_one at ffffffffa7f31581
#19 [ffffb23482953eb8] __x64_sys_io_submit at ffffffffa7f31b82
#20 [ffffb23482953f38] do_syscall_64 at ffffffffa7c0419b
#21 [ffffb23482953f50] entry_SYSCALL_64_after_hwframe at ffffffffa86000ad

有几个fio进程的栈回溯竟然是bfq_has_work，这里边没有调用什么锁呀？很奇怪，难道卡死根源跟bfq_has_work有关。看下它的源码：

//返回0则blk_mq_do_dispatch_sched()中就无法派发继续派发IO了
static bool bfq_has_work(struct blk_mq_hw_ctx *hctx)
{
struct bfq_data *bfqd = hctx->queue->elevator->elevator_data;
//list_empty_careful(&bfqd->dispatch)返回NULL，说明该链表上有rq派发，返回1
return !list_empty_careful(&bfqd->dispatch) ||
//bfq_tot_busy_queues(bfqd)大于0说明还有active bfqq，则派发该bfqq上的rq，此时返回1
bfq_tot_busy_queues(bfqd) > 0;
}

一般是派发blk-mq派发blk_mq_do_dispatch_sched()函数中会调用bfq_has_work()函数，源码如下：

static int blk_mq_do_dispatch_sched(struct blk_mq_hw_ctx *hctx)
{
struct request_queue *q = hctx->queue;
struct elevator_queue *e = q->elevator;
LIST_HEAD(rq_list);
int ret = 0;
do {
struct request *rq;
//调用bfq_has_work
if (e->type->ops.has_work && !e->type->ops.has_work(hctx))
break;
if (!list_empty_careful(&hctx->dispatch)) {
ret = -EAGAIN;
break;
}
if (!blk_mq_get_dispatch_budget(hctx))
break;
//调用bfq调度器函数 bfq_dispatch_request
rq = e->type->ops.dispatch_request(hctx);
if (!rq) {
blk_mq_put_dispatch_budget(hctx);
blk_mq_delay_run_hw_queues(q, BLK_MQ_BUDGET_DELAY);
break;
}
list_add(&rq->queuelist, &rq_list);
/*取出rq_list链表上的req派发给磁盘驱动，如果因驱动队列繁忙或者nvme硬件繁忙导致派发失败，则把req添加hctx->dispatch等稍后派发遇到req派发失败返回false，退出while循环*/
} while (blk_mq_dispatch_rq_list(q, &rq_list, true));
return ret;
}

当 bfq_has_work 返回0原本说明bfq没有IO可派发了，blk_mq_do_dispatch_sched()就不再派发IO了。但是我对bfq派发IO的bfq_dispatch_request函数做了优化，增加了一个 bfq_high_prio_tmp_list链表保存普通优先级的rq。当bfq空闲时，bfq_tot_busy_queues(bfqd)返回0，但是bfq_high_prio_tmp_list链表上还有rq要派发，此时还需要继续派发rq。fio暂存在 bfq_high_prio_tmp_list链表上的rq得不到派发，fio进程就卡主，不能再派发新rq，除非老的rq派发完成。简单说，这种情况下，要想判断bfq是否还有rq没派发，必须判断bfq_high_prio_tmp_list链表上是否有IO。于是在bfq_has_work()函数中添加如下红色代码：

static bool bfq_has_work(struct blk_mq_hw_ctx *hctx)
{
struct bfq_data *bfqd = hctx->queue->elevator->elevator_data;
return !list_empty_careful(&bfqd->dispatch) ||
!list_empty(&bfqd->bfq_high_prio_tmp_list) ||
bfq_tot_busy_queues(bfqd) > 0;
}

ok，这个问题解决了，但是新的问题又来了。

2.2 bfqq->dispatched泄漏导致的卡死

这个问题的表现也是派发IO的fio或者cat进程卡死，同样也是有很多D进程，ps -eLlf | grep fio |awk '{print $6}' | while read line;do echo "*********";cat /proc/$line/stack;done 看下栈回溯，主要是以下两类：

*********
[<0>] rwsem_down_write_slowpath+0x32d/0x4e0
[<0>] ext4_file_write_iter+0x3cb/0x3e0 [ext4]
[<0>] aio_write+0xf6/0x1c0
[<0>] io_submit_one+0x131/0x3c0
[<0>] __x64_sys_io_submit+0xa2/0x180
[<0>] do_syscall_64+0x5b/0x1a0
[<0>] entry_SYSCALL_64_after_hwframe+0x65/0xca
*********
[<0>] blk_mq_get_tag+0x119/0x270
[<0>] __blk_mq_alloc_request+0xb1/0x100
[<0>] blk_mq_make_request+0x14e/0x5d0
[<0>] generic_make_request+0xcf/0x310
[<0>] submit_bio+0x3c/0x160
[<0>] do_blockdev_direct_IO+0x21e6/0x2e60
[<0>] ext4_direct_IO+0x247/0x730 [ext4]
[<0>] generic_file_direct_write+0x93/0x160
[<0>] __generic_file_write_iter+0xb7/0x1c0
[<0>] ext4_file_write_iter+0x171/0x3e0 [ext4]
[<0>] aio_write+0xf6/0x1c0
[<0>] io_submit_one+0x131/0x3c0
[<0>] __x64_sys_io_submit+0xa2/0x180
[<0>] do_syscall_64+0x5b/0x1a0
[<0>] entry_SYSCALL_64_after_hwframe+0x65/0xca

分析根源应该是有进程 __blk_mq_alloc_request->blk_mq_get_tag 分配tag失败导致的。

在派发IO的__bfq_dispatch_request()函数最后添加如下红色代码调试信息。

static struct request *__bfq_dispatch_request(struct blk_mq_hw_ctx *hctx)
{
exit:
..............
printk("5:%s %s %d dispatch rq:0x%llx bfq_high_io_prio_count:%d rq_in_driver:%d\n",__func__,current->comm,current->pid,(u64)rq,bfqd->bfq_high_io_prio_count,bfqd->rq_in_driver);
return rq;
}

卡死时刷屏打印如下信息：

5:__bfq_dispatch_request kworker/3:1H 497 dispatch rq:0x0 bfq_high_io_prio_count:0 rq_in_driver:0

这是blk-mq驱动了内核线程在疯狂的派发rq，但是派发的rq一直是NULL。正常情况应该会退出派发的！

看下 497 派发IO的函数流程，为什么会一直派发rq呢？执行这个命令stap --all-modules -ve 'probe module("bfq").function("bfq_dispatch_request") {printf("%s %d\n",execname(),tid()) print_backtrace()}'，刷屏打印

kworker/3:1H 497
0xffffffffc06b3950 : bfq_dispatch_request+0x0/0x9f0 [bfq]
0xffffffffa480f385 : blk_mq_do_dispatch_sched+0xc5/0x160 [kernel]
0xffffffffa480feb9 : __blk_mq_sched_dispatch_requests+0x189/0x1e0 [kernel]
0xffffffffa480ff40 : blk_mq_sched_dispatch_requests+0x30/0x60 [kernel]
0xffffffffa48076a1 : __blk_mq_run_hw_queue+0x51/0xd0 [kernel]
0xffffffffa44d3477 : process_one_work+0x1a7/0x360 [kernel]
0xffffffffa44d3b40 : worker_thread+0x30/0x390 [kernel]
0xffffffffa44d9502 : kthread+0x112/0x130 [kernel]
0xffffffffa4e00255 : ret_from_fork+0x35/0x40 [kernel]
0xffffffffa4e00255 : ret_from_fork+0x35/0x40 [kernel] (inexact)

为什么 kworker/3:1H 进程会刷屏执行 __blk_mq_run_hw_queue 而最终疯狂派发 rq 呢？继续执行stap --all-modules -ve 'probe kernel.function("blk_mq_do_dispatch_sched").return {if(tid()== 497) {printf("%s %d\n",execname(),tid()) print_backtrace()}}'调试，刷屏打印：

kworker/3:1H 497
Returning from: 0xffffffffa480f2c0 : blk_mq_do_dispatch_sched+0x0/0x160 [kernel]
Returning to : 0xffffffffa480feb9 : __blk_mq_sched_dispatch_requests+0x189/0x1e0 [kernel]
0xffffffffa480ff40 : blk_mq_sched_dispatch_requests+0x30/0x60 [kernel]
0xffffffffa48076a1 : __blk_mq_run_hw_queue+0x51/0xd0 [kernel]
0xffffffffa44d3477 : process_one_work+0x1a7/0x360 [kernel]
0xffffffffa44d3b40 : worker_thread+0x30/0x390 [kernel]
0xffffffffa44d9502 : kthread+0x112/0x130 [kernel]
0xffffffffa4e00255 : ret_from_fork+0x35/0x40 [kernel]
0xffffffffa4e00255 : ret_from_fork+0x35/0x40 [kernel] (inexact)

源码分析这是blk-mq驱动启动的内核线程，而启动的根源在blk_mq_run_work_fn()函数，继续用如下命令调试stap --all-modules -ve 'probe kernel.function("blk_mq_run_work_fn") {if(tid()== 497) {printf("%s %d\n",execname(),tid()) print_backtrace()}}'，刷屏打印：

kworker/3:1H 497
0xffffffffa4807720 : blk_mq_run_work_fn+0x0/0x20 [kernel]
0xffffffffa44d3477 : process_one_work+0x1a7/0x360 [kernel]
0xffffffffa44d3b40 : worker_thread+0x30/0x390 [kernel]
0xffffffffa44d9502 : kthread+0x112/0x130 [kernel]
0xffffffffa4e00255 : ret_from_fork+0x35/0x40 [kernel]
0xffffffffa4e00255 : ret_from_fork+0x35/0x40 [kernel] (inexact)

这个打印验证了想法。并且，分析可能性最大是__blk_mq_delay_run_hw_queue函数里执行的__blk_mq_run_hw_queue函数。用如下命令验证stap --all-modules -ve 'probe kernel.function("__blk_mq_delay_run_hw_queue") {{printf("%s %d\n",execname(),tid()) print_backtrace()}}'，刷屏打印：

kworker/3:1H 497
0xffffffffa4807e20 : __blk_mq_delay_run_hw_queue+0x0/0x160 [kernel]
0xffffffffa4807fd8 : blk_mq_delay_run_hw_queues+0x38/0x50 [kernel]
0xffffffffa480f412 : blk_mq_do_dispatch_sched+0x152/0x160 [kernel]
0xffffffffa480feb9 : __blk_mq_sched_dispatch_requests+0x189/0x1e0 [kernel]
0xffffffffa480ff40 : blk_mq_sched_dispatch_requests+0x30/0x60 [kernel]
0xffffffffa48076a1 : __blk_mq_run_hw_queue+0x51/0xd0 [kernel]
0xffffffffa44d3477 : process_one_work+0x1a7/0x360 [kernel]
0xffffffffa44d3b40 : worker_thread+0x30/0x390 [kernel]
0xffffffffa44d9502 : kthread+0x112/0x130 [kernel]
0xffffffffa4e00255 : ret_from_fork+0x35/0x40 [kernel]
0xffffffffa4e00255 : ret_from_fork+0x35/0x40 [kernel] (inexact)

综合这些调试信息，基本可以确定：blk_mq_do_dispatch_sched()函数因为派发的rq 是NULL，而频繁执行 blk_mq_delay_run_hw_queues(q, BLK_MQ_BUDGET_DELAY)->blk_mq_delay_run_hw_queue->__blk_mq_delay_run_hw_queue->kblockd_mod_delayed_work_on(blk_mq_hctx_next_cpu(hctx), &hctx->run_work,msecs_to_jiffies(msecs)) 而再次触发 mq 异步派发进程，就是 kworker/3:1H497 进程。这个逻辑好像没问题，但是为什么会频繁触发 blk-mq 异步派发进程 kworker/3:1H 497 呢？看下blk_mq_do_dispatch_sched()函数派发IO的代码：

static int blk_mq_do_dispatch_sched(struct blk_mq_hw_ctx *hctx)
{
struct request_queue *q = hctx->queue;
struct elevator_queue *e = q->elevator;
LIST_HEAD(rq_list);
int ret = 0;
do {
struct request *rq;
if (e->type->ops.has_work && !e->type->ops.has_work(hctx))//bfq_has_work
break;
if (!list_empty_careful(&hctx->dispatch)) {
ret = -EAGAIN;
break;
}
if (!blk_mq_get_dispatch_budget(hctx))
break;
rq = e->type->ops.dispatch_request(hctx);//调用bfq调度器函数 bfq_dispatch_request
if (!rq) {
//如果bfq_dispatch_request返回rq是NULL，则执行blk_mq_delay_run_hw_queues()启动blk-mq异步派发IO内核线程
blk_mq_put_dispatch_budget(hctx);
blk_mq_delay_run_hw_queues(q, BLK_MQ_BUDGET_DELAY);
break;
}
list_add(&rq->queuelist, &rq_list);
/*取出rq_list链表上的req派发给磁盘驱动，如果因驱动队列繁忙或者nvme硬件繁忙导致派发失败，则把rq添加hctx->dispatch等稍后派发遇到rq派发失败返回false，退出while循环*/
} while (blk_mq_dispatch_rq_list(q, &rq_list, true));
return ret;
}

跟踪下bfq_has_work()函数，stap --all-modules -ve 'probe module("bfq").function("bfq_has_work").return {{printf("%s %d %d bfqd:0x%x\n",execname(),tid(),$return,$hctx->queue->elevator->elevator_data)}}'，刷屏打印如下：

kworker/3:1H 497 1 bfqd:0xffffa0657f07e800
kworker/3:1H 497 1 bfqd:0xffffa0657f07e800

是在没什么思路，那就把bfq算法核心数据bfqq或bfqd结构体成员信息打印出来，看能否发现什么异常！启动crash，

crash> bfq_data 0xffffa0657f07e800
struct bfq_data {
queue = 0xffffa0659740eda8,
dispatch = {
next = 0xffffa0657f07e808,
prev = 0xffffa0657f07e808
},
...........
bfq_high_prio_tmp_list = {
next = 0xffffa0657f07ec28,
prev = 0xffffa0657f07ec28
},

这两个暂存IO的链表都是空的，那bfq_has_work函数返回1只能可能是 bfq_tot_busy_queues 返回true 了，测试一下果然是。stap --all-modules -ve 'probe module("bfq").function("bfq_tot_busy_queues").return {{printf("%s %d %d\n",execname(),tid(),$return)}}'刷屏打印：

kworker/3:1H 497 21
kworker/3:1H 497 21
kworker/3:1H 497 21
kworker/3:1H 497 21
kworker/3:1H 497 21
kworker/3:1H 497 21

此时，怀疑有很多IO的派发都有问题。我在内核检测哪些rq添加到bfq算法队列后30s还没传输完成，结果打印：

[10168.410008] rq:0xffffa0659b96e110 long time do not dispatch
[10168.410008] rq:0xffffa0659b95f790 long time do not dispatch
[10168.410008] rq:0xffffa0659b950010 long time do not dispatch
[10168.410009] rq:0xffffa0659b968350 long time do not dispatch
[10168.410009] rq:0xffffa065974b8350 long time do not dispatch
[10168.410009] rq:0xffffa0659b958e90 long time do not dispatch
[10168.411852] 5:__bfq_dispatch_request kworker/3:1H 497 dispatch rq:0x0 bfq_high_io_prio_count:0 rq_in_driver:0
[10168.415764] 5:__bfq_dispatch_request kworker/3:1H 497 dispatch rq:0x0 bfq_high_io_prio_count:0 rq_in_driver:0
[10168.419817] 5:__bfq_dispatch_request kworker/3:1H 497 dispatch rq:0x0 bfq_high_io_prio_count:0 rq_in_driver:0
[10168.423622] 5:__bfq_dispatch_request kworker/3:1H 497 dispatch rq:0x0 bfq_high_io_prio_count:0 rq_in_driver:0
[10168.427652] 5:__bfq_dispatch_request kworker/3:1H 497 dispatch rq:0x0 bfq_high_io_prio_count:0 rq_in_driver:0

有时一个很大的疑问，还是重点看下 __bfq_dispatch_request 函数为什么派发的rq总是0把！怀疑里边返回的 bfq_select_queue 有问题。因为__bfq_dispatch_request函数中是先执行bfq_select_queue选择一个bfqq，再从bfqq中跳一个rq派发，是否bfq_select_queue选择的bfqq就有问题呢？当有很多怀疑点时，就抓住核心的疑问穷追不舍！

用stap --all-modules -ve 'probe module("bfq").function("bfq_select_queue").return {{printf("%s %d %d\n",execname(),tid(),$return)}}'这个命令调试，打印

kworker/3:1H 497 0
kworker/3:1H 497 0
kworker/3:1H 497 0
kworker/3:1H 497 0
kworker/3:1H 497 0
kworker/3:1H 497 0
kworker/3:1H 497 0
kworker/3:1H 497 0

果然 bfq_select_queue 返回的bfqq 有问题。那就通过bfqd->in_service_queue看下当前正在派发IO的bfqq是哪个！前文调试已经知道bfqd指针是0xffffa0657f07e800。

crash> bfq_data 0xffffa0657f07e800 | grep in_service_queue
in_service_queue = 0xffffa06597e1c000,
crash> bfq_queue 0xffffa06597e1c000 | grep pid
pid = 1272,
crash> bt 1272
PID: 1272 TASK: ffffa065a692df00 CPU: 0 COMMAND: "jbd2/sdb-8"
#0 [ffffbcc1c21efa48] __schedule at ffffffffa4cc8826
#1 [ffffbcc1c21efae0] schedule at ffffffffa4cc8cb8
#2 [ffffbcc1c21efaf0] io_schedule at ffffffffa4cc90d2
#3 [ffffbcc1c21efb00] blk_mq_get_tag at ffffffffa480dca9
#4 [ffffbcc1c21efb78] __blk_mq_alloc_request at ffffffffa4807ba1
#5 [ffffbcc1c21efb98] blk_mq_make_request at ffffffffa480ab5e
#6 [ffffbcc1c21efc28] generic_make_request at ffffffffa47fe85f
#7 [ffffbcc1c21efc80] submit_bio at ffffffffa47feadc
#8 [ffffbcc1c21efcc0] submit_bh_wbc at ffffffffa471673a
#9 [ffffbcc1c21efcf8] jbd2_journal_commit_transaction at ffffffffc06e28a4 [jbd2]
#10 [ffffbcc1c21efea0] kjournald2 at ffffffffc06e792d [jbd2]
#11 [ffffbcc1c21eff10] kthread at ffffffffa44d9502
#12 [ffffbcc1c21eff50] ret_from_fork at ffffffffa4e00255

当前正在派发rq的bfqq的进程竟然卡死了！继续看下bfq_select_queue函数里有哪些疑问？看下他的函数源码：

static struct bfq_queue *bfq_select_queue(struct bfq_data *bfqd)
{
................
if (bfq_bfqq_wait_request(bfqq) ||
(bfqq->dispatched != 0 && bfq_better_to_idle(bfqq))) {
..........
//如果进程有异步bfqq，则取出这个异步bfqq
if (async_bfqq &&
icq_to_bic(async_bfqq->next_rq->elv.icq) == bfqq->bic &&
bfq_serv_to_charge(async_bfqq->next_rq, async_bfqq) <=
bfq_bfqq_budget_left(async_bfqq))
bfqq = bfqq->bic->bfqq[0];
else if (bfq_bfqq_has_waker(bfqq) &&
bfq_bfqq_busy(bfqq->waker_bfqq) &&
bfqq->next_rq &&
bfq_serv_to_charge(bfqq->waker_bfqq->next_rq,
bfqq->waker_bfqq) <=
bfq_bfqq_budget_left(bfqq->waker_bfqq)
)
//取出bfqq->waker_bfqq
bfqq = bfqq->waker_bfqq;
//bfqd->in_service_queue这个bfqq绑定的进程空闲时没有大量连续快速向bfqq->sort_list插入IO请求特性
else if (!idling_boosts_thr_without_issues(bfqd, bfqq) &&
//bfqd->in_service_queue这个bfqq没有权重提升
(bfqq->wr_coeff == 1 || bfqd->wr_busy_queues > 1 ||
//bfqd->in_service_queue这个bfqq绑定的进程在派发IO请求时，没有快速插入IO请求的特性
!bfq_bfqq_has_short_ttime(bfqq)))
/*该if成立说明bfqd->in_service_queue这个bfqq初步符合被inject bfqq抢占的条件，在bfq_choose_bfqq_for_injection()里，如果遍历st->active tree上的bfqq，符合bfqd->rq_in_driver < limit条件，就返回这个bfqq，抢占bfqd->in_service_queue*/
bfqq = bfq_choose_bfqq_for_injection(bfqd);
else
bfqq = NULL;
goto keep_queue;
}
expire:
//bfqq过期失效
bfq_bfqq_expire(bfqd, bfqq, false, reason);
new_queue:
bfqq = bfq_set_in_service_queue(bfqd);
if (bfqq) {
//找到bfqq则goto check_queue分支
goto check_queue;
}
keep_queue:
return bfqq;
}

用stap --all-modules -ve 'probe module("bfq").function("bfq_bfqq_expire") {{printf("%s %d 0x%x\n",execname(),tid(),$bfqq)}}'看下是否执行了bfq_bfqq_expire()函数，什么打印都没有。再用stap --all-modules -ve 'probe module("bfq").function("idling_boosts_thr_without_issues").return {{printf("%s %d 0x%x\n",execname(),tid(),$return)}}'看下是否调用了idling_boosts_thr_without_issues函数，刷屏打印：

kworker/3:1H 497 0x0
kworker/3:1H 497 0x0
kworker/3:1H 497 0x0
kworker/3:1H 497 0x0
kworker/3:1H 497 0x0

看来执行到了if (!idling_boosts_thr_without_issues(bfqd, bfqq)…)那个if判断，我认为这个if不成立，而是执行了else分支bfqq = NULL，然后goto keep_queue返回bfqq = NULL，这样就导致bfq_select_queue()函数一直返回NULL呀。怎么验证，启动crash工具，前文知道当前的bfqq指针是0xffffa06597e1c000：

crash> bfq_queue 0xffffa06597e1c000 | grep wr_coeff
wr_coeff = 30,
crash> bfq_data 0xffffa0657f07e800 | grep wr_busy_queues
wr_busy_queues = 1,
crash> bfq_queue 0xffffa06597e1c000 -x | grep flags
flags = 0xf2,
crash> bfq_queue 0xffffa06597e1c000 | grep dispatched
dispatched = 2, //bfqq

BFQQF_has_short_ttime 是bit5 ,而现在 bfqq:0xffffa06597e1c000 的 flags bit5是1，因此 if(!idling_boosts_thr_without_issues(bfqd, bfqq) &&(bfqq->wr_coeff == 1 || bfqd->wr_busy_queues > 1 ||!bfq_bfqq_has_short_ttime(bfqq))) 不成立，因此否else 分支， bfqq=NULL，这就是 bfq_select_queue 返回的bfqq是NULL。神奇了，为什么会这样呢？

难道我在bfqq添加的代码影响到了 bfqq 算法？那段代码要成立，得先有更外边的 if (bfq_bfqq_wait_request(bfqq) || (bfqq->dispatched != 0 && bfq_better_to_idle(bfqq))) 成立！而BFQQF_wait_request 是bit2，但bfqq的flags的bit2是0。bfqq->dispatched 是2，那应该是这个导致if ((bfqq->dispatched != 0 && bfq_better_to_idle(bfqq))) 成立。

验证一下 bfq_better_to_idle()返回true，stap --all-modules -ve 'probe module("bfq").function("bfq_better_to_idle").return {{printf("%s %d bfqq:0x%x 0x%x\n",execname(),tid(),$bfqq,$return)}}'，刷屏打印：

kworker/3:1H 497 bfqq:0xffffa06597e1c000 0x1
kworker/3:1H 497 bfqq:0xffffa06597e1c000 0x1
kworker/3:1H 497 bfqq:0xffffa06597e1c000 0x1
kworker/3:1H 497 bfqq:0xffffa06597e1c000 0x1
kworker/3:1H 497 bfqq:0xffffa06597e1c000 0x1
kworker/3:1H 497 bfqq:0xffffa06597e1c000 0x1
kworker/3:1H 497 bfqq:0xffffa06597e1c000 0x1

看来，如果 bfqq:0xffffa06597e1c000 的 dispatched 是0，那if就不会成立了吗。但事实是bfqq->dispatched 始终是2！

看来问题的根源是 bfqq:0xffffa06597e1c000 的 dispatched 始终是2，大于0 呀？神奇了，难道我的代码导致 bfqq:0xffffa06597e1c000 的 dispatched 泄漏了，导致始终大于0？仔细分析我在__bfq_dispatch_request()中添加的代码，果然发现了问题，如下红色代码：

static struct request *__bfq_dispatch_request(struct blk_mq_hw_ctx *hctx)
{
....................
rq = bfq_dispatch_rq_from_bfqq(bfqd, bfqq);
if (rq) {
if(bfqd->queue->high_io_prio_enable)
{
if(rq->rq_flags & RQF_HIGH_PRIO){//高优先级IO
if(bfqd->bfq_high_io_prio_mode == 0){
bfqd->bfq_high_io_prio_mode = 1;
hrtimer_start(&bfqd->bfq_high_prio_timer, ms_to_ktime(5000),HRTIMER_MODE_REL);
}
}
else//非高优先级IO
{
if(bfqd->bfq_high_io_prio_mode)
{
//在 bfq_high_io_prio_mode 非0时间的5s内，如果遇到非high prio io，并且驱动队列IO个数大于限制，则把不派发该IO，而是临时添加到bfq_high_prio_tmp_list链表
if(bfqd->rq_in_driver >= HIGH_PRIO_IO_LIMIT){
list_add_tail(&rq->queuelist,&bfqd->bfq_high_prio_tmp_list);
bfqq->dispatched --;
bfqd->bfq_high_io_prio_count ++;
return NULL;
}
}
}
}
if(list_empty(&bfqd->bfq_high_prio_tmp_list)){
inc_in_driver_start_rq:
bfqd->rq_in_driver++;
start_rq:
rq->rq_flags |= RQF_STARTED;
}
}
exit:
//1:如果是高优先级IO该if不成立，直接跳过。 2:如果非高优先级IO，则把rq添加到bfq_high_prio_tmp_list尾，从链表头选一个rq派发 3:如果rq是NULL，则也从bfq_high_prio_tmp_list选一个rq派发
if(((rq && !(rq->rq_flags & RQF_HIGH_PRIO)) || !rq)){
if(!list_empty(&bfqd->bfq_high_prio_tmp_list)){
if(rq){
list_add_tail(&rq->queuelist,&bfqd->bfq_high_prio_tmp_list);
bfqq->dispatched --;
bfqd->bfq_high_io_prio_count ++;
}
rq = list_first_entry(&bfqd->bfq_high_prio_tmp_list, struct request, queuelist);
list_del_init(&rq->queuelist);
bfqd->bfq_high_io_prio_count --;
bfqq = RQ_BFQQ(rq);
if(bfqq)
bfqq->dispatched++;
bfqd->rq_in_driver++;
rq->rq_flags |= RQF_STARTED;
}
}
return rq;
}

如果rq有 RQF_HIGH_PRIO属性，rq在派发时先有__bfq_dispatch_request->bfq_dispatch_rq_from_bfqq()默认的bfqq->dispatched++。回到__bfq_dispatch_request函数，如果 bfq_high_prio_tmp_list 链表空，那if(!list_empty(&bfqd->bfq_high_prio_tmp_list))不成立，就不会执行 rq->rq_flags |= RQF_STARTED 。再下边的 if(((rq && !(rq->rq_flags & RQF_HIGH_PRIO)) || !rq)) 也不成立。于是再次错过了rq->rq_flags |= RQF_STARTED。

等rq传输完成，执行到bfq_finish_requeue_request函数

static void bfq_finish_requeue_request(struct request *rq)
{
//由传输完成的IO请求rq得到bfqq
struct bfq_queue *bfqq = RQ_BFQQ(rq);
struct bfq_data *bfqd;
if (likely(rq->rq_flags & RQF_STARTED)) {
unsigned long flags;
spin_lock_irqsave(&bfqd->lock, flags);
if (rq == bfqd->waited_rq)
bfq_update_inject_limit(bfqd, bfqq);
//IO传输完成重点执行的函数在这里
bfq_completed_request(bfqq, bfqd);
bfq_finish_requeue_request_body(bfqq);
spin_unlock_irqrestore(&bfqd->lock, flags);
}
}
static void bfq_completed_request(struct bfq_queue *bfqq, struct bfq_data *bfqd)
{
u64 now_ns;
u32 delta_us;
bfq_update_hw_tag(bfqd);
//已经派发但是还没传输完成的reqIO请求个数
bfqd->rq_in_driver--;
//还没有传输完成的IO请求个数，为0表示所有的IO请求都传输完成了，跟bfqd->rq_in_driver类似
bfqq->dispatched--;
}

因为 rq 没有 RQF_STARTED 标记，导致没有执行bfqq->dispatched--，这就导致bfqq->dispatched泄漏了。解决方法很简单，rq 有 RQF_HIGH_PRIO属性标记并且 bfq_high_prio_tmp_list 链表空时，也要执行 rq->rq_flags |= RQF_STARTED。把if(list_empty(&bfqd->bfq_high_prio_tmp_list))改成if((rq->rq_flags & RQF_HIGH_PRIO) || list_empty(&bfqd->bfq_high_prio_tmp_list))即可！

就是一个细节逻辑分析疏忽，导致了这么复杂的排查过程，服了！

最后，关于blk-mq内核派发rq的kworker/0:1H内核线程多了一层理解。blk_mq_do_dispatch_sched函数中，因为以后很多个rq暂存在 bfq_high_prio_tmp_list链表， if (e->type->ops.has_work && !e->type->ops.has_work(hctx)) 不成立。于是执行 rq = e->type->ops.dispatch_request(hctx) 即 __bfq_dispatch_request()。

如果进程在执行__bfq_dispatch_request时，因为rq没有RQF_HIGH_PRIO属性，导致__bfq_dispatch_request返回NULL，即 rq = e->type->ops.dispatch_request(hctx) 返回NULL，那就执行 blk_mq_delay_run_hw_queues(q, BLK_MQ_BUDGET_DELAY) ，在kworker/0:1H 内核线程延迟派发rq。然后2ms后再次执行 blk_mq_do_dispatch_sched，重复上述流程，直到bfq_high_prio_tmp_list链表上的rq全派发完。然后bfq_high_prio_tmp_list链表空，kworker/0:1H 线程最后一次执行 blk_mq_do_dispatch_sched()，bfq_has_work返回NULL，if (e->type->ops.has_work && !e->type->ops.has_work(hctx)) 成立，最终退出rq派发。

相当于我利用了 blk-mq的 blk_mq_delay_run_hw_queues(q, BLK_MQ_BUDGET_DELAY) 延迟派发的特性，从而保证没有进程执行 __blk_mq_sched_dispatch_requests->blk_mq_do_dispatch_sched->blk_mq_dispatch_rq_list 派发rq时，也可以由内核线程 kworker/0:1H 延迟派发完所有的rq。这样我就不用担心rq暂存到bfq_high_prio_tmp_list链表后，会导致这些rq无法被进程主动派发了！

3：bfqq->dispatched和rq暂存bfq_high_prio_tmp_list链表的深入分析

我在bfq添加的代码，有多处执行 bfqq->dispatched -- 和 bfqq->dispatched ++。本身rq在rq = bfq_dispatch_rq_from_bfqq(bfqd, bfqq) 里已经执行 bfqq->dispatched ++。我在bfq添加的 bfqq->dispatched -- 和 bfqq->dispatched ++ 是否会影响bfq算法呢？我原本的意思是，rq如果添加到 bfq_high_prio_tmp_list链表，那就bfqq->dispatched --，等rq真正派发时再 bfqq->dispatched ++。但是这样有问题，如果rq在bfq_high_prio_tmp_list链表停留时间过长，因为提前 bfqq->dispatched --，如果这是bfqq的最后一个rq，就相当于bfqq的所有rq全派发完成了。

但实际并没有，只是rq暂存在 bfq_high_prio_tmp_list链表而已。如果 bfqq->dispatched 是0了，那估计会影响bfqq过期失效，从st->active tree剔除。这样，等该bfqq暂存在 bfq_high_prio_tmp_list链表上的rq终于派发了，再 bfqq->dispatched ++。这样就有问题了，因为该bfqq可能已经被新进程拥有了！这样分析，我的代码里不应该 bfqq->dispatched ++ 和 bfqq->dispatched --。不对，分析错了。因为先有 rq = bfq_dispatch_rq_from_bfqq(bfqd, bfqq) 里的 bfqq->dispatched ++，然后再有我的代码里的 bfqq->dispatched --，这就相当于该bfqq上的rq并没有派发呀，rq还保存在bfqq上，这样bfqq也不会过期失效的！！！！！！

但是，我的bfq代码是否可以放到 rq = bfq_dispatch_rq_from_bfqq(bfqd, bfqq); 前边呢？因为 rq = bfq_dispatch_rq_from_bfqq(bfqd, bfqq) 执行过后，相当于rq就从bfqq上的链表剔除了，而我把该rq长时间保存在 bfq_high_prio_tmp_list链表，可能会影响bfq算法呀。因为正常 rq = bfq_dispatch_rq_from_bfqq(bfqd, bfqq) 执行过的rq很快就会传输成功呀。而我是把rq暂存在bfq_high_prio_tmp_list链表，可能要过一段时间才会传输完成。

并且 rq = bfq_dispatch_rq_from_bfqq(bfqd, bfqq) 选中要派发的rq一定来自bfqq->next_rq ，并且还会执行 bfq_dispatch_rq_from_bfqq->bfq_bfqq_served 把rq传输消耗的配额累加到rq所属bfqq的entity->service，然后我把rq添加到bfq_high_prio_tmp_list链表。如果这个bfqq的配额正好消耗光了，那bfqq就会过期失效。等从bfq_high_prio_tmp_list链表再取出这个rq，rq所属的bfqq已经过期失效了，然后的代码里却 bfqq->dispatched++ 。然后派发给驱动，等rq传输完成，执行bfq_completed_request()，还要 bfqq->dispatched--。这样就会有问题了，因为bfqq已经过期失效了！

问题来了，rq = bfq_dispatch_rq_from_bfqq(bfqd, bfqq)从bfqq取出rq，然后把rq添加到bfq_high_prio_tmp_list链表后，rq和原属的bfqq要不要彻底脱离关系???不脱离关系，那rq在bfq_high_prio_tmp_list链表暂存时，bfqq可能因配额消耗光而失效。这样从bfq_high_prio_tmp_list链表取出该rq后，使用rq的bfqq已经过期失效了？不能再按照原流程处理了！那怎么办？rq = bfq_dispatch_rq_from_bfqq(bfqd, bfqq)从bfqq取出rq，然后把rq添加到bfq_high_prio_tmp_list链表后：先执行bfqq->dispatched--，这制造一个假象，这个rq传输完成了！因为正常bfqq->dispatched--就说明rq传输完成了。然后执行 rq->elv.priv[0] = NULL 和 rq->elv.priv[1] = NULL ，令rq所属的bfqq是NULL，这样rq和bfqq就脱离关系了！接着，从bfq_high_prio_tmp_list链表取出该rq后，不再执行bfqq->dispatched++，因为rq不再属于哪个 bfqq了，接着派发该rq。然后在该rq传输完成后，执行bfq_finish_requeue_request()函数，因rq所属bfqq是NULL，则直接返回，不会再执行bfq_completed_request()令bfqq->dispatched--了。

但是这个方案也有一个问题，因为正常情况，rq传输完成后，会执行 bfq_finish_requeue_request->bfq_completed_request()，更新很多bfqq参数，这些与bfq算法紧密相关。而我的bfq优化算法，一旦rq加入 bfq_high_prio_tmp_list链表，就要令rq所属bfqq是NULL，然后rq传输完成后就执行不了 bfq_finish_requeue_request->bfq_completed_request() 了，影响了bfqq参数更新，肯定会对bfq算法造成影响。左右为难，没有一个完美的解法。

不对，想来想去，还是有解法的！执行 rq = bfq_dispatch_rq_from_bfqq(bfqd, bfqq) 后，然后执行我添加的bfq代码时，把rq添加到bfq_high_prio_tmp_list链表。但是把bfqq->dispatched++ 和 bfqq->dispatched-- 都去掉，其他代码不修改。之后 rq所属bfqq可能过期失效，从st->active tree 移动到 st->idle tree。但是该bfqq可能会被完全释放吗？不会，第一，bfqq所属的进程派发的rq，还有保存在bfq_high_prio_tmp_list链表，进程必须等这些rq派发完才会退出。我之前说添加到bfq_high_prio_tmp_list链表的rq的bfqq可能被释放，bfqq会被新的进程有用，这个说法是错误的。什么情况下bfqq才会被释放呢？在 bfq_put_queue()函数释放bfqq，但是前提是 bfqq->ref 是0。每向bfqq插入一个rq则bfqq->ref ++，看来只有bfqq上的rq全派发完才有可能 bfqq->ref是0。然后才有概率 bfq_forget_entity()-> bfq_put_queue()中因 bfqq->ref为0 而释放掉 bfqq。因此，即便 bfqq 的rq有插入 bfq_high_prio_tmp_list 链表的，然后bfqq上的rq全派发完了，bfqq过期失效，也不会释放bfqq。应该是这样！

因此，我的分析：把 rq = bfq_dispatch_rq_from_bfqq(里边有bfqq->dispatched++ )上的rq插入bfq_high_prio_tmp_list链表后，不再 bfqq->dispatched--，就相当于该rq还是属于bfqq，只不过换了一个保存位置而已。只不过延迟派发给驱动而已。想想，即便没有我的代码，rq = bfq_dispatch_rq_from_bfqq(bfqd, bfqq) 选中的rq直接派发给驱动，在磁盘阵列驱动繁忙时，rq也是暂存在磁盘驱动队列，这个rq也无法直接派发给磁盘硬件。rq暂存在磁盘驱动队列，我的bfq代码是把rq暂存在 bfq_high_prio_tmp_list 链表，都是延迟派发，有什么区别呢？

你可能感兴趣的:(linux,性能优化,c语言,源码,服务器)

Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
ARM 和 AMD 架构的区别 m0_69576880 arm开发 windows 架构
ARM架构和AMD架构是两种不同的计算机处理器架构，它们有以下几个主要区别：设计出发点、兼容性、性能特点、市场定价。设计出发点：①ARM构架：ARM架构最初是为嵌入式系统设计的，旨在提供低功耗和高效能的解决方案。它主要应用于移动设备、嵌入式系统和物联网设备②AMD架构：AMD架构是基于x86架构的扩展，旨在提供与Intel架构兼容的处理器。它主要用于台式机、服务器和工作站等计算机系统。兼容性：AR
Linux系统配置（应用程序） 1风天云月 Linux linux 应用程序编译安装 rpm http
目录前言一、应用程序概述1、命令与程序的关系2、程序的组成3、软件包封装类型二、RPM1、RPM概述2、RPM用法三、编译安装1、解包2、配置3、编译4、安装5、启用httpd服务结语前言在Linux中的应用程序被视为将软件包安装到系统中后产生的各种文档，其中包括可执行文件、配置文件、用户手册等内容，这些文档被组织为一个有机的整体，为用户提供特定的功能，因此对于“安装软件包”与“安装应用程序”这两
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
可处理！环境排放3.0项目怎么提现？裕华投资会刘裕华免费荐股骗局曝光！墨守成法
骗子冒充裕华投资会刘裕华通过伪造或仿冒投资平台，向股民发送虚假环境排放3.0项目链接，引导股民者下载进行投资，以送一万体验金操作小额投资能提现作为诱饵，不断引导消费者加大资金投入。不法分子随后迅速转移资金，当投资者要提现时候就以“流水未完成”“登录异常”“服务器维护”“比赛未结束”等借口不让提现，直到平台关闭跑了或者完成流水任务为由一波亏完。在以翻本为借口继续让投资者加入资金。若你不幸遭遇到裕华投
包含日志获取webshell 陈望_ning
日志文件关闭：Apache目录下的httpd.conf文件#ErrorLog"logs/error.log"#CustomLog"logs/access.log"common加#号为注释不产生日志文件如果去掉#将会在Apache/logs/目录下产生日志文件linux:access_logerror_logwindows:access.logerror.logaccess_log每一行记录了一次网
Java并发核心：线程池使用技巧与最佳实践！ | 多线程篇(五) bug菌¹ Java实战(进阶版)java Java零基础入门 Java并发线程池多线程篇
本文收录于「Java进阶实战」专栏，专业攻坚指数级提升，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！环境说明：Windows10+IntelliJIDEA2021.3.2+Jdk1.8本文目录前言摘要正文何为线程池？为什么需要线程池？线程池的好处线程池使用场景如何创建线程池？线程池的常见配置源码解析案例分享案例代码演示案例运行
Android 应用权限管理详解
文章目录1.权限类型2.权限请求机制3.权限组和分级4.权限管理的演进5.权限监控和SELinux强制访问控制6.应用权限审核和GooglePlayProtect7.开发者最佳实践8.用户权限管理9.Android应用沙箱模型10.ScopedStorage（分区存储）11.背景位置权限（BackgroundLocationAccess）12.权限回收和自动清理13.权限请求的用户体验设计14.G
uniapp微信小程序 - 详解微信小程序平台用户授权登录全流程，uniapp v3版本中小程序端开发下用户点击登录后获取手机号/昵称/性别/头像等信息完成登录（提供完整示例代码，一键复制开箱即用）十一猫咪爱养鱼前端组件与功能(开箱即用)uniapp常见问题解决 uniapp vue3 uniapp3小程序授权登录微信小程序登录获取用户信息教程获取用户昵称手机号头像信息登录 vue3版本小程序平台授权登录 uniap小程序端用户登录流程 uni完整的小程序平台登录源码
效果图在uniapp微信小程序端开发中，超详细实现用户授权登录完整功能源码，用户授权后获取手机号/昵称/头像/性别等，提供完整思路流程及逻辑讲解。uniappVue3和Vue2都能用，你也可以直接复制粘贴，然后改下参数放到你的项目中去就行。整体思路做功能之前，先来看一下整体流程是
DPDK 技术详解：榨干网络性能的“瑞士军刀”
你是否曾感觉，即使拥有顶级的服务器和万兆网卡，你的网络应用也总是“喂不饱”硬件，性能总差那么一口气？传统的网络处理方式，就像在高速公路上设置了太多的收费站和检查点，限制了数据包的“奔跑”速度。今天，我们要深入探讨一个能够打破这些瓶颈，让你的网络应用快到飞起的“黑科技”——DPDK(DataPlaneDevelopmentKit，数据平面开发套件)。这不仅仅是一个工具包，更是一种全新的网络处理哲学。
微信公众号回调java_处理微信公众号消息回调 weixin_39607620 微信公众号回调java
1、背景在上一节中，咱们知道如何接入微信公众号，可是以后公众号会与咱们进行交互，那么微信公众号如何通知到咱们本身的服务器呢？咱们知道咱们接入的时候提供的url是GET/mp/entry，那么公众号以后产生的事件将会以POST/mp/entry发送到咱们本身的服务器上。html2、代码实现，此处仍是使用weixin-java-mp这个框架实现一、引入weixin-java-mpcom.github.
手把手教你用C语言实现顺序表
hello，大家好，本篇文章旨在为大家讲解如何使用C语言实现顺序表，还有就是小编自己复习一下相关知识，OK，那我们现在开始。在通讯录中，有增删查改等功能，那么顺序表我们也会对以上功能进行实现。一、创建并初始化顺序表1.创建typedefintSLDataType;#defineINIT_CAPACITY4//动态顺序表--按需申请typedefstructSeqList{SLDataType*a;
[spring6: Mvc-网关]-源码解析
推荐阅读：[spring6:Mvc-函数式编程]-源码解析GatewayServerMvcAutoConfiguration@AutoConfiguration(after={HttpClientAutoConfiguration.class,RestTemplateAutoConfiguration.class,RestClientAutoConfiguration.class,FilterAu
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
分布式链路追踪系统架构设计：从理论到企业级实践 ma451152002 java 分布式系统架构
分布式链路追踪系统架构设计：从理论到企业级实践本文深入探讨分布式链路追踪系统的架构设计原理、关键技术实现和企业级应用实践，为P7架构师提供完整的技术方案参考。目录引言：分布式链路追踪的重要性核心概念与技术原理系统架构设计数据模型与协议标准核心组件架构设计性能优化与扩展性设计企业级实施策略技术选型与对比分析监控与运维体系未来发展趋势P7架构师面试要点引言：分布式链路追踪的重要性微服务架构下的挑战在现
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
程序员必备：10 个提升代码质量的工具大力出奇迹985 宠物
在软件开发过程中，代码质量对项目的成功起着决定性作用。高质量的代码不仅易于维护和扩展，还能有效降低成本并提升可靠性。本文精心挑选了10个程序员必备工具，助力提升代码质量。这些工具涵盖代码格式化、静态分析、代码审查、测试、性能优化、安全扫描、版本控制、依赖管理、代码生成以及文档生成等多个关键领域。通过使用它们，开发者能够高效地发现并解决代码中的潜在问题，遵循最佳实践，提升代码的可读性、可维护性与安全
新手如何通过github pages静态网站托管搭建个人网站和项目站点 vvandre Web技术 github
一、githubpages静态网站托管介绍githubpages它是一个免费快捷的静态网站托管服务。对比传统建站，它有哪些优点呢？在传统方式中，首先要租用服务器，服务器上需要运行外部程序，还需要再购买域名，要配置SSL证书，最后还要配置DNS，将域名解析到服务器。这一套繁琐操作，基本上就把小白劝退了。graphTDA[租用服务器]-->B[部署Web应用(运行外部程序，如Nginx)]B-->C[
二级域名分发系统商业版全开源v3版 CloseAi论坛程序源码二级域名分发系统商业版开源
介绍：名分发-快乐二级域名分发源码主要是二级域名分发网站源码，域名接口配置自己研究吧网盘下载地址：https://zijiewangpan.com/NbX6950sYLn图片：
二级域名分发网站源码商业版全开源 lskelasi 程序源码二级域名分发源码二级域名分发网站源码源码
介绍：快乐二级域名分发-快乐二级域名分发源码主要是二级域名分发网站源码，不懂的不要下载了。本套源码可设置收费使用，有充值接口，域名接口配置自己研究吧网盘下载地址：https://zijiewangpan.com/jsX0JAuRE01图片：
word转pdf、pdf转word在线工具分享 bpmh 常用工具 word pdf
️一、在线转换网站（方便快捷，无需安装）MicrosoftOfficeOnline(官方推荐，最安全可靠)：网址：直接使用你的Microsoft账户登录https://www.office.com/方法：将你的.docx或.doc文件上传到OneDrive。在OfficeOnline中打开该Word文档。点击文件>另存为>下载PDF副本。优点：官方出品，完全免费，无需额外上传到第三方服务器，安全性
最新二级域名分发系统网站源码可商用 huihuixxx 程序源码小鬼授权系统源码全解密源码授权代码二级域名分发系统网站源码
介绍：1.源码楼主网上买的没有后门是旧版本2.支付接口调用的是码支付来进行的3.支付接口需要登陆管理员后台安装4.支付接口必须信息正确只能装一次5.在线充值默认的充值比例是1：1【搭建教程】1.把源码上传主机并解压2.绑定根目录和域名并解析3.访问你的域名即可提示安装4.后台登陆地址：你的域名/admin5.登陆后台安装你的支付接口（需要的话）6.码支付怎么使用方法百度一下！网盘下载地址：http
前端数据库：IndexedDB从基础到高级使用指南
文章目录前端数据库：IndexedDB从基础到高级使用指南引言一、IndexedDB概述1.1什么是IndexedDB1.2与其他存储方案的比较二、基础使用2.1打开/创建数据库2.2基本CRUD操作添加数据读取数据更新数据删除数据三、高级特性3.1复杂查询与游标3.2事务高级用法3.3性能优化技巧四、实战案例：构建离线优先的待办事项应用4.1数据库设计4.2同步策略实现五、常见问题与解决方案5.
探索高效文档转换新路径：Aspose.Words v18.7助力Word无缝变PDF 邴卉露Robust
探索高效文档转换新路径：Aspose.Wordsv18.7助力Word无缝变PDF【下载地址】Aspose.Wordsv18.7C示例源码Word转PDF无需安装Office本仓库提供了一个使用Aspose.Wordsv18.7将Word文档转换为PDF文档的C#示例源码。Aspose.Words是一个强大的.NET控件，允许开发者在不安装MicrosoftOffice的情况下读写Word文档，并
Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
C语言结构体详解初学者，亦行者 C语言学习算法数据结构 c语言
目录C语言结构体1、声明结构体类型2、定义结构体变量3、成员的赋值与引用4、结构体数组5、结构体指针6、总结C语言结构体1、声明结构体类型前面学习了数组是一组相同类型数据的集合。但在实际应用中，我们往往会遇到不同类型的数据。而结构体就是用来存放不同数据的。#includeintmain(){structStu{intnum;//学号为整型charname[20];//姓名为字符串charsex;/
在Windows11上安装Linux操作系统的几种技术方案 yuanpan linux 运维服务器
在Windows11上安装Linux主要有以下几种技术方案，每种方案适用于不同的需求场景：1.WindowsSubsystemforLinux(WSL)适用场景：开发、命令行工具、轻量级Linux环境支持发行版：Ubuntu、Debian、KaliLinux、Fedora等优点：轻量级：无需虚拟机，直接在Windows上运行Linux命令行环境。无缝集成：可访问Windows文件系统，支持VSCo
Claude Code 超详细完整指南（2025最新版）笙囧同学 python
终端AI编程助手|高频使用点+生态工具+完整命令参考+最新MCP配置目录快速开始（5分钟上手）详细安装指南系统要求Windows安装（WSL方案）macOS安装Linux安装安装验证配置与认证首次认证环境变量配置代理配置⚡基础命令详解启动命令会话管理文件操作Think模式完全指南MCP服务器配置详解MCP基础概念添加MCP服务器10个必备MCP服务器MCP故障排除记忆系统详解高级使用技巧成本控制策
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，