やっはろ

Chebykan wx 文章阅读

文献筛选

[1] 神经网络：全面基础
[2] 通过sigmoid函数的超层叠近似
[3] 多层前馈网络是通用近似器
[5] 注意力是你所需要的
[6] 深度残差学习用于图像识别
[7] 视觉化神经网络的损失景观
[8] 牙齿模具点云补全通过数据增强和混合RL-GAN
[9] 强化学习：一项调查
~~[10] 使用PySR和SymbolicRegression.jl的科学可解释机器学习~~

[11] Z. Liu, Y. Wang, S. Vaidya, F. Ruehle, J. Halverson, M. Soljačić, T.Y. Hou, M. Tegmark, "KAN：科尔莫戈罗夫-阿诺德网络"，2024年，arXiv预印本 arXiv:2404.19756。
[12] D.A. Sprecher, S. Draghici, "空间填充曲线和基于科尔莫戈罗夫超层叠的神经网络"，《神经网络》15卷1期（2002年）57-67页。
[13] M. Köppen, "关于科尔莫戈罗夫网络的训练"，收录于《人工神经网络—ICANN 2002：国际会议马德里，西班牙，2002年8月28-30日论文集》12卷，Springer出版社，2002年，474-479页。
[14] J. Schmidhuber, "发现具有低科尔莫戈罗夫复杂性和高泛化能力的神经网络"，《神经网络》10卷5期（1997年）857-873页。
[15] M.-J. Lai, Z. Shen, "科尔莫戈罗夫超层叠定理可以在近似高维函数时打破维度诅咒"，2021年，arXiv预印本 arXiv:2112.09963。
[16] P.-E. Leni, Y.D. Fougerolle, F. Truchetet, "用于图像处理的科尔莫戈罗夫样条网络"，收录于《图像处理：概念、方法、工具与应用》，IGI Global出版社，2013年，54-78页。
[17] J. He, "关于ReLU DNNs的最优表达能力和其在科尔莫戈罗夫超层叠定理中的应用"，2023年，arXiv预印本 arXiv:2308.05509。
[18] A.D. Jagtap, K. Kawaguchi, G.E. Karniadakis, "自适应激活函数加速深度和物理信息神经网络的收敛"，《计算物理》404卷（2020年）109136。
[19] S. Guarnieri, F. Piazza, A. Uncini, "具有自适应样条激活函数的多层前馈网络"，《IEEE神经网络交易》10卷3期（1999年）672-683页。
[20] D. Fakhoury, E. Fakhoury, H. Speleers, "ExSpliNet：一个可解释且表现力强的基于样条的神经网络"，《神经网络》152卷（2022年）332-346页。

[21] C.J. Vaca-Rubio, L. Blanco, R. Pereira, M. Caus, "用于时间序列分析的科尔莫戈罗夫-阿诺德网络（KANs）"，2024年，arXiv预印本 arXiv:2405.08790。
[22] M.E. Samadi, Y. Müller, A. Schuppert, "平滑科尔莫戈罗夫阿诺德网络，实现结构知识表示"，2024年，arXiv预印本 arXiv:2405.11318。
[23] Z. Li, "科尔莫戈罗夫-阿诺德网络是径向基函数网络"，2024年，arXiv预印本 arXiv:2405.06721。
[24] Z. Bozorgasl, H. Chen, "Wav-KAN：小波科尔莫戈罗夫-阿诺德网络"，2024年，arXiv预印本 arXiv:2405.12832。
[26] SynodicMonth, "ChebyKAN"，2024年，https://github.com/SynodicMonth/ChebyKAN/。
[27] S. SS, "基于切比雪夫多项式的科尔莫戈罗夫-阿诺德网络：非线性函数近似的有效架构"，2024年，arXiv预印本 arXiv:2405.07200。【本文？】
[28] S.S. Bhattacharjee, "TorchKAN：简化KAN模型及其变体"，2024年，https://github.com/1ssb/torchkan/。
[29] M. Raissi, P. Perdikaris, G.E. Karniadakis, "物理信息神经网络：解决涉及非线性偏微分方程的正问题和反问题的深度学习框架"，《计算物理》378卷（2019年）686-707页。
[30] D.W. Abueidda, P. Pantidis, M.E. Mobasher, "DeepOKAN：基于科尔莫戈罗夫-阿诺德网络的深度运算网络，用于力学问题"，2024年，arXiv预印本 arXiv:2405.19143。

[31] G.E. Karniadakis, I.G. Kevrekidis, L. Lu, P. Perdikaris, S. Wang, L. Yang, "物理信息机器学习"，《自然综述：物理学》3卷6期（2021年）422-440页。
[32] L.D. McClenny, U.M. Braga-Neto, "自适应性物理信息神经网络"，《计算物理》474卷（2023年）111722页。
[33] Z. Wang, X. Meng, X. Jiang, H. Xiang, G.E. Karniadakis, "物理信息神经网络推断的纳维-斯托克斯解的多重性及数据和涡粘性的影响"，2023年，arXiv预印本 arXiv:2309.06010。
[34] L. Lu, P. Jin, G. Pang, Z. Zhang, G.E. Karniadakis, "基于运算符的通用逼近定理的DeepONet学习非线性运算符"，《自然：机器智能》3卷3期（2021年）218-229页。
[35] C. Wu, M. Zhu, Q. Tan, Y. Kartha, L. Lu, "物理信息神经网络非自适应和基于残差的自适应采样的综合研究"，《计算力学应用力学工程》403卷（2023年）115671页。
[36] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, "PINNs中的学习：相变、总扩散和泛化"，2024年，arXiv预印本 arXiv:2403.18494。
[37] M.D. Wilkinson, M. Dumontier, I.J. Aalbersberg, G. Appleton, M. Axton, A. Baak, N. Blomberg, J.-W. Boiten, L.B. da Silva Santos, P.E. Bourne 等，"科学数据管理和监护的FAIR指导原则"，《科学数据》3卷1期（2016年）1-9页。
[38] N. Tishby, F.C. Pereira, W. Bialek, "信息瓶颈方法"，2000年，arXiv预印本 physics/0004057。
[39] N. Tishby, N. Zaslavsky, "深度学习与信息瓶颈原理"，收录于2015 IEEE信息论研讨会（ITW），IEEE，2015年，第1-5页。
[40] R. Shwartz-Ziv, N. Tishby, "通过信息打开深度神经网络的黑箱"，2017年，arXiv预印本 arXiv:1703.00810。
[41] Z. Goldfeld, Y. Polyanskiy, "信息瓶颈问题及其在机器学习中的应用"，《IEEE选择领域信息论杂志》1卷1期（2020年）19-38页。
[42] A.F. Psaros, X. Meng, Z. Zou, L. Guo, G.E. Karniadakis, "科学机器学习中的不确定性量化：方法、指标和比较"，《计算物理》477卷（2023年）111902页。
[43] S. Cai, Z. Mao, Z. Wang, M. Yin, G.E. Karniadakis, "用于流体力学的物理信息神经网络（PINNs）：综述"，《力学学报》37卷12期（2021年）1727-1738页。
[44] Z. Mao, A.D. Jagtap, G.E. Karniadakis, "用于高速流动的物理信息神经网络"，《计算力学应用力学工程》360卷（2020年）112789页。
[45] L. Yang, X. Meng, G.E. Karniadakis, "B-PINNs：贝叶斯物理信息神经网络，用于带噪声数据的前向和反问题"，《计算物理》425卷（2021年）109913页。
[46] X. Meng, Z. Li, D. Zhang, G.E. Karniadakis, "PPINN：用于时变偏微分方程的并行物理信息神经网络"，《计算力学应用力学工程》370卷（2020年）113250页。
[47] Z. Zou, G.E. Karniadakis, "L-HYDRA：多头物理信息神经网络"，2023年，arXiv预印本 arXiv:2301.02152。
[48] Z. Zou, X. Meng, G.E. Karniadakis, "在物理信息神经网络（PINNs）中纠正模型误指定"，《计算物理》期刊。

[49] Z. Zhang, Z. Zou, E. Kuhl, G.E. Karniadakis, "通过结合物理信息神经网络与符号回归发现阿尔茨海默病的反应-扩散模型"，《计算力学应用力学工程》419卷（2024年）116647页。
[50] P. Chen, T. Meng, Z. Zou, J. Darbon, G.E. Karniadakis, "利用多时间哈密顿-雅可比偏微分方程解决某些科学机器学习问题"，《SIAM科学计算杂志》46卷2期（2024年）C216–C248页。
[51] P. Chen, T. Meng, Z. Zou, J. Darbon, G.E. Karniadakis, "利用具有时间依赖哈密顿量的哈密顿-雅可比偏微分方程进行连续科学机器学习"，收录于《第六届动态与控制学习年度会议》，PMLR，2024年，第1–12页。
[52] Z. Li, N. Kovachki, K. Azizzadenesheli, B. Liu, K. Bhattacharya, A. Stuart, A. Anandkumar, "用于参数化偏微分方程的傅里叶神经运算符"，2020年，arXiv预印本 arXiv:2010.08895。
[53] K. Shukla, P.C. Di Leoni, J. Blackshire, D. Sparkman, G.E. Karniadakis, "用于超声无损量化表面裂纹的物理信息神经网络"，《无损评价杂志》39卷（2020年）1–20页。
[54] K. Shukla, A.D. Jagtap, J.L. Blackshire, D. Sparkman, G.E. Karniadakis, "利用超声数据通过物理信息神经网络量化多晶镍的微观结构性质：解决反问题的有前景方法"，《IEEE信号处理杂志》39卷1期（2021年）68–77页。
[55] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, "物理信息神经网络中的基于残差的注意力"，《计算力学应用力学工程》421卷（2024年）116805页。
[56] L. Lu, X. Meng, S. Cai, Z. Mao, S. Goswami, Z. Zhang, G.E. Karniadakis, "基于公平数据的两种神经运算符（及其实用扩展）的全面公平比较"，《计算力学应用力学工程》393卷（2022年）114778页。
[57] Z. Zou, A. Kahana, E. Zhang, E. Turkel, R. Ranade, J. Pathak, G.E. Karniadakis, "使用基于神经运算符的快速求解器进行大规模散射"，2024年，arXiv预印本 arXiv:2405.12380。
[58] K. Shukla, V. Oommen, A. Peyvan, M. Penwarden, N. Plewacki, L. Bravo, A. Ghoshal, R.M. Kirby, G.E. Karniadakis, "深度神经运算符作为形状优化的准确替代模型"，《工程应用人工智能》129卷（2024年）107615页。
[59] X. Meng, L. Yang, Z. Mao, J. del Águila Ferrandis, G.E. Karniadakis, "从数据和物理中学习功能先验和后验"，《计算物理》457卷（2022年）111073页。
[60] Z. Zou, X. Meng, A.F. Psaros, G.E. Karniadakis, "NeuralUQ：用于神经微分方程和运算符不确定性量化的综合库"，《SIAM评论》66卷1期（2024年）161–190页。
[61] Z. Zou, X. Meng, G.E. Karniadakis, "物理信息神经网络和神经运算符中噪声输入-输出的不确定性量化"，2023年，arXiv预印本 arXiv:2311.11262。

[62] J. Lin, "Awesome-KAN"，2024年，网址：https://github.com/SpaceLearner/JacobiKAN/.
[63] G. Karniadakis, S. Sherwin, 《计算流体动力学的谱/hp元素方法》，第二版，牛津大学出版社，牛津，英国，2005年。
[64] B. Ter-Avanesov, "Awesome-KAN"，2024年，网址：https://github.com/Boris-73-TA/OrthogPolyKANs/.
[65] G. Karniadakis, S.J. Sherwin, 《计算流体动力学的谱/hp元素方法》，牛津大学出版社，美国，2005年。
[66] N. Rahaman, A. Baratin, D. Arpit, F. Draxler, M. Lin, F. Hamprecht, Y. Bengio, A. Courville, "关于神经网络的谱偏倚"，收录于：国际机器学习会议，PMLR，2019年，第5301–5310页。
[67] S. Greydanus, M. Dzamba, J. Yosinski, "哈密顿神经网络"，《神经信息处理系统进展》32卷（2019年）。
[68] A. Garg, S.S. Kagi, "哈密顿神经网络"，2019年。
[69] D.P. Kingma, J. Ba, "Adam：一种随机优化方法"，2014年，arXiv预印本 arXiv:1412.6980。
[70] A. Krishnapriyan, A. Gholami, S. Zhe, R. Kirby, M.W. Mahoney, "特征物理信息神经网络的潜在失败模式"，《神经信息处理系统进展》34卷（2021年）26548–26560页。
[71] Y. He, Z. Wang, H. Xiang, X. Jiang, D. Tang, "用于不可压缩流的人工粘性增强物理信息神经网络"，《应用数学与力学》44卷7期（2023年）1101–1110页。
[72] J.-L. Guermond, R. Pasquetti, B. Popov, "非线性守恒律的熵粘性方法"，《计算物理》230卷11期（2011年）4248–4267页。
[73] Z. Wang, M.S. Triantafyllou, Y. Constantinides, G. Karniadakis, "柔性管道中湍流流动的熵粘性大涡模拟研究"，《流体力学杂志》859卷（2019年）691–730页。
[74] X. Jin, S. Cai, H. Li, G.E. Karniadakis, "NSFnets（纳维-斯托克斯流网）：用于不可压缩纳维-斯托克斯方程的物理信息神经网络"，《计算物理》426卷（2021年）109951页。
[75] S.M. Allen, J.W. Cahn, "有序二元合金中具有第二近邻相互作用的基态结构"，《金属学报》20卷3期（1972年）423–433页。
[76] K. Linka, A. Schäfer, X. Meng, Z. Zou, G.E. Karniadakis, E. Kuhl, "用于实际非线性动力系统的贝叶斯物理信息神经网络"，《计算力学应用力学工程》402卷（2022年）115346页。
[77] M. Yin, Z. Zou, E. Zhang, C. Cavinato, J.D. Humphrey, G.E. Karniadakis, "在数据稀疏情况下推断生物力学本构定律家族的生成建模框架"，《力学与物理固体杂志》181卷（2023年）105424页。
[78] Z. Zou, T. Meng, P. Chen, J. Darbon, G.E. Karniadakis, "利用粘性哈密顿-雅可比PDE进行科学机器学习中的不确定性量化"，2024年，arXiv预印本 arXiv:2404.08809。
[79] R.M. Neal, 等著，"使用哈密顿动力学的MCMC"，《马尔可夫链蒙特卡洛手册》2卷11期（2011年）2页。
[80] I. Loshchilov, F. Hutter, "解耦权重衰减正则化"，2017年，arXiv预印本 arXiv:1711.05101。
[81] T.M. Inc, "MATLAB版本：9.14.0（r2023a）"，2023年，网址：https://www.mathworks.com。
[82] R. Shwartz-Ziv, "深度神经网络中的信息流"，2022年，arXiv预印本 arXiv:2202.06749。
[83] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, "基于残差的注意力及其与信息瓶颈理论的联系在物理信息神经网络中"，2023年，arXiv预印本 arXiv:2307.00379。
[84] K. Shukla, A.D. Jagtap, G.E. Karniadakis, "通过域分解实现并行物理信息神经网络"，《计算物理》447卷（2021年）110683页。

DNN

DNN是深度神经网络（Deep Neural Network）的缩写，它是一种复杂的神经网络结构，具有多个隐藏层。深度神经网络在模式识别和机器学习领域非常流行，尤其在图像识别、语音识别和自然语言处理等任务中表现出色。

以下是DNN的一些基本特点：

多层结构：DNN由输入层、多个隐藏层和输出层组成。每一层由许多神经元（或称节点）组成，每个神经元都与前一层的所有神经元相连接。
前向传播与反向传播：在训练过程中，输入数据会通过神经网络进行前向传播，直到输出层产生结果。然后，通过反向传播算法调整网络中的权重和偏置，以减小输出结果与真实值之间的误差。
非线性激活函数：DNN通常使用非线性激活函数（如Sigmoid、ReLU或Tanh函数）来增加网络的表示能力，使得网络可以学习和模拟复杂函数。
端到端学习：DNN可以直接从原始数据中学习特征，而不需要手动特征提取，这使得它在处理复杂问题时更为有效。
强大的表达能力：由于DNN具有多层结构，它可以学习到数据的深层表示，因此在很多任务中都能达到很好的性能。
大数据需求：DNN通常需要大量的数据来训练，以便能够学习到有效的模式和特征。

随着计算能力的提升和大数据的可用性，DNN在各个领域的应用越来越广泛，对人工智能的发展起到了重要的推动作用。

原论文

【本篇详细分析了3.3部分，合格沃茨方程】

AcomprehensiveandFAIRcomparisonbetweenMLPandKAN representations for differential equations and operator networks Khemraj Shuklaa,1, Juan Diego Toscanoa,1, Zhicheng Wanga,1, Zongren Zoua,1,

、这份文档是一篇研究论文，主要探讨了使用Kolmogorov-Arnold Networks (KAN) 和 多层感知器 (MLP) 解决微分方程和算子网络问题的能力，并将其与基于 MLP 的物理信息神经网络 (PINNs) 和 深度算子网络 (DeepONets) 进行比较。

主要发现：

原始 KAN 模型 在使用 B-spline 参数化时，虽然具有一定的准确性，但效率较低，并且可能不稳定。
改进的 KAN 模型 使用低阶正交多项式作为激活函数，其性能与 PINNs 和 DeepONets 相当，但仍然缺乏鲁棒性，可能因随机种子或高阶正交多项式而发散。P1
损失函数可视化 和 信息瓶颈理论分析 表明，改进的 KAN 模型的学习动态与 PINNs 类似，都经历了拟合、扩散和总扩散三个阶段。P1P2

研究方法：

PIKAN 和 DeepOKAN：使用改进的 KAN 模型构建物理信息机器学习模型和深度算子网络，用于求解前向和逆向微分方程问题。P1P2P5
比较实验：在八个基准测试中比较了 MLP 和 KAN 模型的性能，包括：
- 不连续函数逼近P5
- 结构保持哈密顿动力学系统
- PDE 解近似
- 不确定性量化
- 算子学习
信息瓶颈理论：分析 PIKAN 和 PINNs 的学习动态，揭示其训练过程中的三个阶段。P2

研究意义：

FAIR 原则：数据和代码将公开提供，以促进 KAN 模型在科学机器学习领域的进一步发展。P2
理论分析：为 KAN 模型的收敛性和稳定性提供了理论基础。
应用潜力： KAN 模型在解决大规模 PDE、时间依赖 PDE 和算子学习问题方面具有潜在的应用价值。P22

未来研究方向：

扩展 KAN 模型在解决大规模 PDE 和时间依赖 PDE 问题中的应用。P22
研究 KAN 模型的收敛性理论。
将 DeepOKAN 模型应用于更复杂的工业问题。P22

总结：

这项研究表明，KAN 模型在解决微分方程和算子网络问题方面具有潜力，并可能成为 MLP 模型的有力替代方案。随着研究的深入，KAN 模型有望在更广泛的科学和工程领域得到应用。

实验设置：

亥姆霍兹方程： P9
- 二维亥姆霍兹方程：Δu + k^2u = q(x,y)P9
- 边界条件：u(-1,y) = u(1,y) = u(x,-1) = u(x,1) = 0P9
- 源项：q(x,y) = -a1^2π^2sin(a1πx)sin(a2πy) - a2^2π^2sin(a1πx)sin(a2πy) + ksin(a1πx)sin(a2πy)P9
- 解析解：u(x,y) = sin(a1πx)sin(a2πy)P9
PINNs和PIKANs架构：P9P10P13
- PINNs： 2层隐藏层，每层16个神经元，使用双曲正切激活函数。P13
- PIKANs： 2层隐藏层，每层8个神经元，使用五次 Chebyshev 多项式作为激活函数，k=5。P10
训练策略：
- 使用全局权重调整边界条件和 PDE 残差的贡献，w_bc = 1, w_pde = 0.01。P10
- 使用残差注意力机制 (RBA) 平衡每个损失项内的局部贡献。P10
- 使用LBFGS优化器进行训练，共1800次迭代。P10
评估指标：
- 相对 L2 错误：衡量模型预测与解析解之间的差异。
- 训练时间：衡量模型训练的效率。

实验结果：P10

参数分析：在参数匹配的情况下，cPIKAN (即物理信息 Chebyshev KAN) 优于 PINNs 和原始 PIKANs，而 PINNs + RBA 仍然是表现最好的模型。P10
计算时间分析：使用Adam优化器和无全局权重的情况下，cPIKAN + RBA 和 PINNs + RBA 表现出相似的性能，而cPIKAN() + RBA 稍快且略好于 cPIKAN + RBA。P10
复杂性分析：对于更高波数的亥姆霍兹方程，cPIKAN + RBA 优于其他方法，实现了 0.414% 的相对 L2 错误。
敏感性分析：增加层数或多项式阶数会降低模型性能，并可能导致原始 cPIKANs 不稳定。cPIKAN() 通过递归形式避免了这个问题，并恢复了稳定性。P11P21

结论：

cPIKANs 在求解亥姆霍兹方程方面表现出与 PINNs 相当的精度，但使用更少的网络参数。P10
RBA 机制有助于提高模型精度和训练效率。P10
cPIKAN() 通过递归形式解决了原始 cPIKANs 的稳定性问题。P21P22

总结：

该实验表明，cPIKANs 是求解亥姆霍兹方程的有力工具，具有高精度、低参数和潜在稳定性等优点。通过进一步优化网络结构和训练策略，cPIKANs 可能在更广泛的 PDE 求解领域得到应用。

完整版实验

实验1：亥姆霍兹方程 (Helmholtz equation)

目标：比较PINNs和PIKANs在求解二维亥姆霍兹方程上的性能，并分析不同网络结构对结果的影响。
设置：
- 二维亥姆霍兹方程，解析解，边界条件，源项。P9
- PINNs：2层隐藏层，每层16个神经元，双曲正切激活函数。P13
- PIKANs：2层隐藏层，每层8个神经元，五次 Chebyshev 多项式激活函数。P10
- 训练策略：全局权重，RBA，LBFGS优化器。P10
- 评估指标：相对 L2 错误，训练时间。
- 全局权重在这里指的是用于平衡边界条件损失和PDE 残差损失之间贡献的参数。
  
  在 PDE 求解中，我们通常需要同时考虑模型的预测结果与边界条件和 PDE 本身的匹配程度。为了平衡这两部分的重要性，论文中使用了全局权重来调整它们的相对贡献。
- w_bc：调整边界条件损失在总损失函数中的权重。
- w_pde：调整 PDE 残差损失在总损失函数中的权重。
- 论文中使用了 w_bc = 1 和 w_pde = 0.01 的设置，这意味着边界条件损失比 PDE 残差损失重要。
- 不同模型和训练策略的相对 L2 和计算时间 (ms/it) 对比
- (a) 基于参数的分析：使用 LBFGS 优化器和降低 PDE 贡献的偏置损失函数求解亥姆霍兹方程 (a1 = 1, a2 = 4)
- (b) 基于计算时间的比较：使用 Adam 优化器和无偏损失函数求解亥姆霍兹方程 (a1 = 1, a2 = 4)
- © 基于复杂度的分析：使用 Adam 优化器和无全局权重求解更高波数的亥姆霍兹方程 (a1 = a2 = 6)。对于 cPIKAN 模型，N/A 表示“不可用”，因为在初始迭代后损失函数变为未定义。每次迭代的计算时间是在 Nvidia 的 GeForce RTX-3090 GPU 上测量的。
- 这部分实验主要比较了三种不同的设置下，PINNs 和 cPIKANs 求解亥姆霍兹方程的性能：
  
  a) 基于参数的分析:
- 目标：比较不同模型在参数匹配的情况下 (即参数数量相同) 的性能。
- 设置：
  - PINNs 和 cPIKANs：架构参数匹配，但 cPIKANs 使用 Chebyshev 多项式激活函数，PINNs 使用双曲正切激活函数。
  - 训练策略：全局权重，RBA，LBFGS 优化器，1800 次迭代。
- 结果：
  - cPIKANs 优于 PINNs 和原始 PIKANs。P10
  - PINNs + RBA 是表现最好的模型。P10
- 目标：比较不同模型在相同计算时间下的性能。
- 设置：
  - PINNs 和 cPIKANs：架构参数数量大致匹配，但 cPIKANs 使用 Chebyshev 多项式激活函数，PINNs 使用双曲正切激活函数。
  - 训练策略：全局权重，RBA，Adam 优化器，2.0e5 次迭代。P10
- 结果：
  - cPIKAN + RBA 和 PINNs + RBA 表现相似。P10
  - cPIKAN() + RBA 稍快且略好于 cPIKAN + RBA。P10
- c) 基于复杂度的分析:
- 目标：比较不同模型在高波数情况下 (即问题更复杂) 的性能。
- 设置：
  - PINNs 和 cPIKANs：架构参数数量大致匹配，但 cPIKANs 使用 Chebyshev 多项式激活函数，PINNs 使用双曲正切激活函数。
  - 训练策略：无全局权重，RBA，Adam 优化器，5.0e5 次迭代。P10
- 结果：
  - cPIKAN + RBA 优于其他方法，实现了 0.414% 的相对 L2 错误。
- b) 基于计算时间的比较:
结果：
- 参数分析：cPIKAN 优于 PINNs 和原始 PIKANs，PINNs + RBA 表现最好。P10
- 计算时间分析：cPIKAN + RBA 和 PINNs + RBA 性能相似，cPIKAN() + RBA 更快且略好。P10
- 复杂性分析：cPIKAN + RBA 优于其他方法。
- 敏感性分析：增加层数或多项式阶数会降低性能并可能导致不稳定性，cPIKAN() 解决了这个问题。P11P21
- 基于参数的分析。我们定义了合适的架构，以大约匹配所有模型之间的参数数量。PINN 有两个隐藏层，每层16个神经元，cPIKAN（即物理信息化的Chebyshev KAN）有两个隐藏层，每层8个神经元，且 k=5，PIKAN（即物理信息化的KAN）有一个隐藏层，每层10个神经元，且 k=g=5。此外，如[11]所述，我们探索了PIKAN的多网格方法；对于这种情况，我们设置 k=3，初始化 g=5，并将训练过程分为三个阶段，每600次迭代将网格点数量加倍。我们通过在51×51个均匀分布的配点上的1800次LBFGS迭代来最小化方程(19)来训练我们的模型。遵循[11]，我们设置 w_bc=1 和 w_pde=0.01，这诱导了一个偏置的损失函数，该函数降低了PDE的贡献。这个损失函数使我们能够使用二阶优化器直接在少量迭代中训练参数较少的模型。我们将RBA权重初始化为1（即 α_i=α_j=1），并如方程(3)所述，使用 η*=1e-4 更新它们。我们根据每次迭代的相对L2误差和训练时间（以毫秒为单位）来评估模型性能。带有RBA的cPIKAN（cPIKAN+RBA）实现了0.354%的相对L2误差，其预测和相应的点对点误差如图9(a)所示。其余方法的结果详细列于表3(a)中，图10(a)显示了它们的相应相对L2误差收敛情况。由于PIKAN无法从GPU并行化中受益，因此它比其他模型慢得多；然而，其性能优于普通的PINN。多网格PIKAN比PIKAN快（即三个阶段的平均值），并且优于cPIKAN。但是，值得注意的是，在最后一个阶段，参数数量是其他模型的两倍。对于这个例子，cPIKAN优于PINN和普通PIKAN，最佳性能的模型是PINN+RBA。然而，注意到cPIKAN+RBA的最终相对L2误差是可比较的。
- 基于计算时间分析。在本节中，我们分析了更深层网络（即四个隐藏层）和更多配点（即100×100均匀网格）的PINN和cPIKAN模型。我们通过大致匹配PINN和cPIKAN的计算时间来定义每层神经元的数量。
  - 具体来说，PINN、cPIKAN和cPIKAN(R)的隐藏层分别使用100、32和32个神经元。我们使用 w_bc=w_pde=1 来训练我们的模型，这诱导了一个类似于实际应用的无偏损失函数。为了平衡每个损失项的贡献，我们只在PDE残差上使用RBA，将它们初始化为零（即 α_j=0），并如方程(3)所述，使用 η*=1e-3 互动更新它们。遵循这种方法，RBA作为全局和局部权重，修改每个训练点的贡献，并平均平衡每个损失项。我们使用Adam优化器[69]和学习率调度器（从5e-4到5e-5）进行2.0e5次全批量迭代来训练我们的模型。如表3(b)所示，PINN+RBA和cPIKAN+RBA显示出相似的性能。图10(b)显示，将我们的基本模型与RBA结合可以加速它们的相对L2收敛。此外，注意到我们提出的cPIKAN(R)+RBA稍快并且优于cPIKAN+RBA。然而，它们的相对L2收敛（图10(b)）是可比较的，表明这两个模型是同源的。
    “Downscales” 是一个动词，通常用来描述减少规模、重要性、程度或者数量等的过程。在具体的上下文中，“downscales” 可以有不同的含义，以下是一些例子：
  - 在图像处理中，“downscale” 通常指的是降低图像的分辨率，也就是减少图像的尺寸，这通常通过缩小图像的宽度和高度来实现。
  - 在气候模型或地理信息系统（GIS）中，“downscale” 可能指的是将大范围的气候数据或地图信息转换为更小范围或更高分辨率的数据。
  - 在经济学中，“downscale” 可能指的是减少企业的规模或运营水平。
  - 在机器学习和深度学习中，如之前提到的句子，“downscale” 可以指的是减少某个特定损失项在总损失函数中的权重，从而降低它对模型训练过程的影响。
  - 在您的上下文中，“downscales the PDE contribution” 指的是在损失函数中减少偏微分方程（PDE）项的权重，使得这部分对总损失的贡献减少。这样做可能是为了平衡不同损失项之间的比重，或者是为了达到上述提到的其他目的。
    
    这段话描述的是在训练一个模型时的具体步骤和参数设置，下面是对每个部分的详细解释：
    - 基于复杂性的分析。为了增加问题的复杂性，我们求解具有更高波数的亥姆霍兹方程（即 a1 = a2 = 6）。这一修改在偏微分方程残差中诱导了更陡峭的梯度，使得神经网络难以近似。对于PINN，我们使用每层128个神经元的六层隐藏层，而对于cPIKAN和cPIKAN®，我们使用五层、每层32个神经元，以及 k = 5。与前面的情况一样，我们使用无偏损失函数（wbc = wpde = 1）训练我们的模型，并且仅在残差中使用RBA（从零开始），使用 η* = 1e-3。我们使用Adam优化器更新网络参数，进行5e5次全批量迭代，学习率从5e-4降至5e-5。在这种情况下，使用更高的学习率会在cPIKAN模型中引起不稳定性。
      
      最佳表现模型的预测及其对应的点对点误差如图9（b）所示。表3（c）显示，cPIKAN+RBA优于其他方法，实现了0.414%的相对L2误差。然而请注意，cPIKAN®+RBA的性能和收敛历史（见图10©）与其他方法是相当的。
      
      在上述引用的对话内容中，“并且仅在残差中使用RBA（从零开始）” 这句话的意思是指，在训练神经网络模型时，仅在对偏微分方程（PDE）的残差进行优化时应用了残差平衡算法（Residual Balancing Algorithm，简称RBA）。这里的“从零开始”意味着在训练过程的初始阶段，RBA的调整是从零或者初始状态开始的。
      
      具体来说，这里的几个关键点解释如下：
    - 残差：在神经网络求解PDE的过程中，残差是指PDE的实际解与神经网络预测解之间的差异。
    - RBA（残差平衡算法）：这是一种用于改善神经网络求解PDE的方法，它通过调整残差项来提高模型的训练效率和精度。
    - 综上所述，这句话描述的是在模型训练中，如何特别地处理和优化PDE残差的部分，以提高模型对PDE解的近似能力。
    - 仅在残差中使用RBA：这意味着RBA只被应用于优化残差部分，而不是整个损失函数。损失函数通常由多个部分组成，比如数据拟合项、正则化项等，而在这里RBA只影响残差部分。
    - 从零开始：这表明在训练开始时，RBA的调整是初始的，没有预先设定的权重或者调整量，而是随着训练过程的进行逐渐调整。
  - Unbiased Loss Function:
    - = = 1 表示在损失函数中，不同部分的权重是相等的。这里的和可能分别代表损失函数中的边界条件项和数据拟合项的权重。将它们都设置为1意味着这两部分在损失函数中的贡献是相同的，没有对任何一部分进行加权，因此称为“无偏”的损失函数。
  - Apply RBA (initiated at zero):
    - RBA (Residual Balancing Algorithm): 这是一种技术，用于在训练过程中调整残差项，以提高模型对偏微分方程（PDE）解的准确性。残差是指PDE的实际解与模型预测解之间的差异。
    - Initiated at zero: 这意味着在开始训练时，RBA的调整是从零开始的，没有预先的调整或者权重，随着训练的进行，RBA会逐渐对残差项进行优化。
  - 综合以上解释，这段话的意思是：在训练模型时，使用了一个无偏的损失函数，其中边界条件项和数据拟合项的权重都是1。同时，只在损失函数的残差部分应用了从零开始的RBA，并且设置RBA的调整率为0.001，以优化模型对PDE解的近似。这样的设置旨在平衡损失函数的不同部分，并专注于提高模型在满足PDE残差方面的性能。
  - Only in the residuals:
    - 这表明RBA只应用于损失函数中的残差部分。换句话说，RBA不会影响损失函数中的其他部分，如数据拟合项或正则化项，它只专注于优化由PDE导出的残差。
  - Using ∗ = 1−3:
    - ∗ 是RBA中的一个参数，通常称为学习率或者调整率，它控制了RBA对残差项进行调整的幅度。
    - 1−3 表示这个参数的值是0.001（科学记数法表示）。这个值是比较小的，意味着RBA对残差的调整是非常精细的，以避免在训练过程中产生过大的波动。
    - 再次问：
    - “Initiated at zero” 确实指的是初值为零。在这个上下文中，它意味着在开始应用 RBA（Residual Balancing Algorithm）时，其调整参数的初始值被设置为零。这通常指的是开始时不对残差进行任何额外的加权，随着训练的进行，这个值会根据算法的需要进行调整。
      
      所以，更准确的解释应该是：
    - “Initiated at zero”: 在应用 RBA 时，其调整参数的初始值设为零。这意味着在训练的初始阶段，RBA 对残差的影响是最小的或者没有影响，随后这个值会根据残差的实际情况进行更新。
    - 因此，整段话的意思是：
    - 我们使用无偏的损失函数（其中不同部分的权重相等）来训练模型。
    - 我们只在损失函数的残差部分应用 RBA，并且这个算法的初始调整参数设置为零。
    - 使用一个特定的值（例如 0.001）作为 RBA 的调整率，这个值控制了 RBA 在训练过程中对残差进行调整的速率。
    - ds：
    - 在这段文字中，"apply RBA (initiated at zero) only in the residuals using ∗ = 1−3" 是指在训练过程中使用了一种称为**残差平衡算法（Residual Balancing Algorithm, RBA）的技术，并且该算法仅在残差（residuals）**部分应用。具体来说：
    - RBA (Residual Balancing Algorithm):
      - RBA 是一种用于平衡损失函数中不同项（如边界条件损失和PDE残差损失）的算法。它的目的是通过动态调整不同损失项的权重，使得训练过程更加稳定和高效。
      - 在这里，RBA 被用来平衡 PDE 残差损失（residuals）的权重。
    - initiated at zero:
      - 这意味着在训练开始时，RBA 的权重初始值为零。也就是说，初始时 RBA 不会对损失函数产生影响，随着训练的进行，RBA 会逐渐调整权重。
    - only in the residuals:
      - RBA 仅应用于 PDE 残差部分，而不是整个损失函数。这意味着 RBA 只会调整 PDE 残差损失的权重，而不会影响其他部分（如边界条件损失）。
    - using ∗ = 1−3:
      - ∗ 是 RBA 的一个超参数，控制权重调整的速率。∗ = 1−3 表示权重调整的步长较小，以确保调整过程平稳，避免过大的波动。
    - 总结：
      
      "apply RBA (initiated at zero) only in the residuals using ∗ = 1−3" 的意思是：在训练过程中，使用 RBA 算法来动态调整 PDE 残差损失的权重，且 RBA 的权重初始值为零，调整的步长为 1−3。RBA 仅作用于 PDE 残差部分，而不影响其他损失项（如边界条件损失）。
      
      这种做法的目的是通过动态调整 PDE 残差的权重，使得神经网络在训练过程中能够更好地处理 PDE 残差中的陡峭梯度，从而提高模型的收敛性和稳定性。
      
      在原文中，提到的是“apply RBA (initiated at zero) only in the residuals using ∗ = 1−3”。这里的“residuals”确实需要更准确的解释。根据上下文，这里的“residuals”更可能是指PDE的残差部分，而不是泛指所有残差。以下是我的分析依据和修正：
      
      1. 为什么是PDE残差？
    - 在物理信息神经网络（PINN）或相关方法（如cPIKAN）中，损失函数通常由两部分组成：
      - PDE残差（PDE residuals）：衡量神经网络解是否满足偏微分方程（PDE）。
      - 边界条件残差（Boundary condition residuals）：衡量神经网络解是否满足边界条件。
    - 原文中提到“unbiased loss function ( = = 1)”，这表明损失函数中已经明确区分了边界条件损失（）和PDE残差损失（）。
    - 接下来提到“apply RBA only in the residuals”，结合上下文，这里的“residuals”更可能是指PDE残差，因为RBA的目的是动态调整损失函数中不同部分的权重，而PDE残差通常是训练中更难优化的部分（尤其是当波数增加时，PDE残差的梯度会变得更陡峭）。
    - 2. 修正后的理解
      
      “apply RBA (initiated at zero) only in the residuals using ∗ = 1−3” 的意思是：
    - 在训练过程中，使用RBA算法动态调整PDE残差部分的权重。
    - RBA的权重初始值为零（initiated at zero），即初始时不调整权重。
    - 调整的步长为 ∗ = 1−3，这是一个较小的值，以确保权重调整过程平稳。
    - RBA仅作用于PDE残差部分，而不影响边界条件残差或其他损失项。
    - 3. 为什么不是所有残差？
    - 如果RBA应用于所有残差（包括边界条件残差），原文可能会更明确地提到“all residuals”或“both PDE and boundary condition residuals”。
    - 由于PDE残差通常是训练中更难优化的部分（尤其是在高波数情况下），因此RBA更可能被专门用于PDE残差部分，以帮助模型更好地处理陡峭梯度。
    - 4. 总结
      
      结合上下文和PINN的常见训练方法，这里的“residuals”更可能是指PDE残差，而不是所有残差。因此，RBA被应用于PDE残差部分，以动态调整其权重，从而帮助模型更好地收敛。
    - 我们需要仔细分析原文中的上下文和PINN的训练机制，来判断“residuals”是否可能指边界条件残差（BC residuals），而不是PDE残差。以下是我的详细分析和证据：
      
      1. 为什么“residuals”可能不是指BC residuals？
      
      证据1：原文中的损失函数权重
    - 原文提到：“we train our model with an unbiased loss function ( = = 1)”。
      - 这里明确区分了边界条件损失（）和PDE残差损失（），并且两者的初始权重均为1。
      - 如果RBA应用于BC residuals，那么原文可能会更明确地提到“apply RBA to boundary conditions”或“apply RBA to ”。
      - 但原文说的是“apply RBA only in the residuals”，这里的“residuals”更可能是指PDE residuals，因为PDE residuals通常是训练中更难优化的部分。
    - 证据2：问题的复杂性
    - 原文提到：“This modification induces steeper gradients in the PDE residuals, making it difficult for the neural network to approximate.”
      - 这里明确指出，高波数会导致PDE residuals中的梯度变得更陡峭，从而增加训练的难度。
      - 因此，RBA更可能被用于处理PDE residuals，因为这是训练中的主要难点。
    - 证据3：RBA的作用
    - RBA的目的是动态调整损失函数中不同部分的权重，以平衡训练的难度。
      - 在PINN中，PDE residuals通常比BC residuals更难优化，尤其是在高波数情况下。
      - 因此，RBA更可能被用于PDE residuals，而不是BC residuals。
    - 2. 为什么“residuals”不太可能指BC residuals？
      
      反证1：BC residuals的性质
    - BC residuals通常比PDE residuals更容易优化，因为边界条件通常是明确的（例如Dirichlet或Neumann条件），并且计算相对简单。
    - 如果RBA应用于BC residuals，那么它的作用可能不如应用于PDE residuals显著。
    - 反证2：原文的上下文
    - 原文的重点是解决高波数Helmholtz方程，这会导致PDE residuals中的梯度变得非常陡峭。
    - 如果RBA仅应用于BC residuals，那么它对解决高波数问题的帮助可能有限。
    - 3. 进一步证据：PINN的训练机制
    - 在PINN中，PDE residuals和BC residuals通常是分开计算的。
      - PDE residuals是通过神经网络解代入PDE得到的。
      - BC residuals是通过神经网络解在边界上的值与真实边界条件的差异得到的。
    - 如果RBA应用于BC residuals，那么它只会调整BC residuals的权重，而不会直接影响PDE residuals。
      - 这与原文中提到的“steeper gradients in the PDE residuals”不太吻合。
    - 综合以上分析，原文中的“residuals”更可能是指PDE residuals，而不是BC residuals。证据包括：
    - 原文明确区分了PDE residuals和BC residuals，并指出PDE residuals在高波数情况下更难优化。
    - RBA的作用是动态调整损失函数中不同部分的权重，而PDE residuals通常是训练中的主要难点。
    - 如果RBA应用于BC residuals，那么它对解决高波数问题的帮助可能有限。
    - 当然，如果原文有其他上下文或细节表明“residuals”可能包括BC residuals，我们可以进一步讨论。但目前的分析支持“residuals”指PDE residuals的结论。
      
      4. 总结

实验2：不可压缩 Navier-Stokes 方程 (Navier-Stokes equation)

目标：比较PINNs和PIKANs在求解二维不可压缩 Navier-Stokes 方程上的性能，并分析不同多项式类型对结果的影响。
设置：
- 二维不可压缩 Navier-Stokes 方程，解析解，边界条件，人工粘性。P12
- PINNs：6层隐藏层，每层128个神经元，双曲正切激活函数。
- PIKANs：5层隐藏层，每层32个神经元，五次 Chebyshev、Legendre、Jacobi 或 Hermite 多项式激活函数。P22
- 训练策略：全局权重，RBA，Adam优化器。
- 评估指标：相对 L2 错误，训练时间。
结果：
- Re=400：PIKANs 与 PINNs 性能相当，cPIKAN 最具优势。P13
- Re=2000：cPIKAN 单独使用时性能较差，但结合 EVM 或 RBA 后可以显著提高精度。P13P14
- 不同多项式类型：Chebyshev 多项式在 Re=400 和 2000 时都表现出色，Jacobi 多项式在 Re=2000 时也具有竞争力。P13P14

实验3：Allen-Cahn 方程 (Allen-Cahn equation)

目标：比较PINNs和PIKANs在求解二维 Allen-Cahn 方程上的性能。
设置：
- 二维 Allen-Cahn 方程，解析解，边界条件。
- PINNs和PIKANs：各种架构，包括不同层数、神经元数量和激活函数。P13P15P16
- 训练策略：全局权重，RBA，Adam优化器。
- 评估指标：相对 L2 错误，训练时间。
结果：
- PINN + RBA 表现最好，收敛速度最快。P16
- cPIKAN 和 cPIKAN + RBA 的精度接近，但运行时间更长。P16
- PIKANs 的精度不如 PINN + RBA。P16

实验4：反应扩散方程 (Reaction-diffusion equation)

目标：使用 B-cPIKAN 和 B-PINN 解决带噪声数据的 1D 反应扩散方程逆向问题。P16
设置：
- 1D 反应扩散方程，噪声数据。P16P18
- B-cPIKAN 和 B-PINN：不同架构，使用贝叶斯框架和 HMC 方法。P18
- 评估指标：相对 L2 错误，参数估计精度，不确定性。
结果：
- B-cPIKAN 和 B-PINN 表现相似，预测均值和不确定性相似。P18
- B-cPIKAN 对参数 k 的估计略优于 B-PINN。

实验5：Burgers 方程 (Burgers equation)

目标：比较DeepONet和DeepOKAN在求解 1D Burgers 方程算子学习任务上的性能。
设置：
- 1D Burgers 方程，周期边界条件。
- DeepONet和DeepOKAN：不同架构，使用 Chebyshev KAN 和双曲正切激活函数。P18
- 训练策略：Adam优化器，L2 正则化。
- 评估指标：相对 L2 错误，训练时间。
结果：
- DeepOKANs 在计算成本更高的情况下优于 DeepONet。P19
- DeepOKANs 对噪声输入函数更具鲁棒性。P19

实验6：Darcy 问题 (Darcy problem)

目标：比较DeepONet和DeepOKAN在求解 2D Darcy 问题算子学习任务上的性能。
设置：
- 2D Darcy 问题，高斯过程先验，均匀网格。
- DeepONet和DeepOKAN：不同架构，使用 Chebyshev KAN 和双曲正切激活函数。P19
- 训练策略：Adam优化器，L2 正则化。
- 评估指标：相对 L2 错误，训练时间。
结果：
- DeepONet 在计算成本更低的情况下优于 DeepOKAN。P19
- DeepOKAN 对噪声输入函数更具鲁棒性。P19

信息瓶颈理论分析：P20P21

拟合阶段：损失函数和残差呈现有序模式，SNR 从高到低，模型紧密拟合训练数据。P20P21
扩散阶段： SNR 波动，残差逐渐无序，模型探索最小化训练误差的方向。P20P21
总扩散阶段： SNR 突然增加并收敛到临界值，残差无序，模型简化内部表示，提高效率和泛化能力，预测结果接近解析解。P20P21

总结：

论文中 PDE 方面的实验涵盖了多种问题，包括亥姆霍兹方程、不可压缩 Navier-Stokes 方程、Allen-Cahn 方程、反应扩散方程、Burgers 方程和 Darcy 问题。实验结果表明，cPIKANs 在求解 PDE 方面具有潜力，并可以与 PINNs 相媲美。此外，DeepOKANs 在算子学习任务中表现出色，并对噪声输入函数更具鲁棒性。信息瓶颈理论分析揭示了 PINNs 和 cPIKANs 的学习动态，为理解模型行为和改进训练策略提供了指导。

相对l2误差

文中的相对 L2 误差是通过以下步骤计算得出的：

计算预测解与解析解之间的差异：对于每个测试点，使用模型预测的解 u_pred 和解析解 u_analytical，计算它们之间的差异，即残差 e_i = u_pred(x_i) - u_analytical(x_i)。
计算残差平方和：将所有测试点的残差平方求和，得到总残差平方和。
计算解析解平方和：将所有测试点的解析解平方求和，得到解析解的平方和。
计算相对 L2 误差：将总残差平方和除以解析解的平方和，得到相对 L2 误差。公式如下：

相对 L2 误差 = (Σ_i (u_pred(x_i) - u_analytical(x_i))^2) / (Σ_i (u_analytical(x_i))^2)

其中：

u_pred(x_i)：模型在测试点 x_i 处的预测解。
u_analytical(x_i)：解析解在测试点 x_i 处的值。
x_i：测试点的空间坐标。

解释：

相对 L2 误差衡量了模型预测解与解析解之间的差异，误差越小，说明模型预测精度越高。
L2 范数（即欧几里得范数）在这里被用作衡量差异的指标，因为它具有一些良好的性质，例如可加性和均方根性质。
相对 L2 误差通过将残差平方和除以解析解的平方和进行归一化，使得不同问题的误差可以直接比较。

稳定性分析

敏感性分析

敏感性分析的目的：

文章之前的部分已经表明cPIKAN模型在性能上优于PINNs（Physics-Informed Neural Networks），并且显著减少了PIKAN的计算开销。但是，cPIKAN可能会变得不稳定。因此，作者进行了敏感性分析，以研究隐藏层数量（）和多项式阶数（）对模型稳定性的影响。

实验设置和观察结果：

作者首先固定多项式阶数，分别对PIKAN和PIKAN多网格方法在亥姆霍兹方程上的表现进行了研究，观察隐藏层数量的增加对模型性能的影响。
图10(e)显示，无论是增加隐藏层数量还是多项式阶数，都会损害模型的性能。cPIKAN()在亥姆霍兹方程（1 = 2 = 6）上的表现也观察到了类似的行为。
具体来说，增加或可以减少模型的相对L2误差，直到达到6层和达到7阶；然而，更高的阶数或更深的网络会导致振荡，从而降低模型的性能。
对于原始的Chebyshev-KAN公式（即cPIKAN），这些振荡可能变得无法控制。如果大于6或大于5，经过多次迭代训练后，cPIKAN的损失函数可能变得未定义。

损失景观的可视化：

为了进一步探索这种行为，作者可视化了PINN、cPIKAN和cPIKAN()的损失景观。
为了获得这些图表，作者遵循了文献[7,33,70]中的方法，并将目标损失函数重新表述为方程(22)中的形式。
方程(22)中的(1,2)表示在参数空间中沿着两个主要成分方向移动时的损失函数值。

损失景观的特点：

PINN的损失景观（图11(a)）表现出理想的特性，如平滑性、连续性和凸性。
对于更高的学习率（图11(b)），这种模式变得更加明显，这与之前的观察结果[26]一致。
通过将Chebyshev多项式转换为它们的递归表示（即cPIKAN()），作者绕过了计算反三角函数的过程，并恢复了模型的稳定性。图11(d)显示cPIKAN()展现了一个理想的损失景观，这可能允许优化器即使在模型参数在远离最小值区域初始化的情况下，也能成功收敛到全局最小值。

总的来说，这段文本通过敏感性分析探讨了不同网络架构参数对cPIKAN模型稳定性和性能的影响，并通过损失景观的可视化揭示了模型对初始化的敏感性以及如何通过修改模型结构来提高稳定性

References

[1] S. Haykin, Neural Networks: A Comprehensive Foundation, Prentice Hall PTR, 1998. [2] G. Cybenko, Approximation by superpositions of a sigmoidal function, Math. Control Signals Syst. 2 (4) (1989) 303–314. [3] K. Hornik, M. Stinchcombe, H. White, Multilayer feedforward networks are universal approximators, Neural Net. 2 (5) (1989) 359–366. [4] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, Y. Bengio, Generative adversarial networks, Commun. ACM 63 (11) (2020) 139–144. [5] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A.N. Gomez, Ł. Kaiser, I. Polosukhin, Attention is all you need, Adv. Neural Inf. Process. Syst. 30 (2017). [6] K. He, X. Zhang, S. Ren, J. Sun, Deep residual learning for image recognition, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 770–778. [7] H. Li, Z. Xu, G. Taylor, C. Studer, T. Goldstein, Visualizing the loss landscape of neural nets, Adv. Neural Inf. Process. Syst. 31 (2018). [8] J.D. Toscano, C. Zuniga-Navarrete, W.D.J. Siu, L.J. Segura, H. Sun, Teeth mold point cloud completion via data augmentation and hybrid rl-gan, J. Comput. Inf. Sci. Eng. 23 (4) (2023) 041008. [9] L.P. Kaelbling, M.L. Littman, A.W. Moore, Reinforcement learning: A survey, J. Artif. Intell. Res. 4 (1996) 237–285. [10] M. Cranmer, Interpretable machine learning for science with PySR and SymbolicRegression. jl, 2023, arXiv preprint arXiv:2305.01582. [11] Z. Liu, Y. Wang, S. Vaidya, F. Ruehle, J. Halverson, M. Soljačić, T.Y. Hou, M. Tegmark, KAN: Kolmogorov-Arnold networks, 2024, arXiv preprint arXiv:2404.19756. [12] D.A. Sprecher, S. Draghici, Space-filling curves and Kolmogorov superposition-based neural networks, Neural Netw. 15 (1) (2002) 57–67. [13] M. Köppen, On the training of a Kolmogorov network, in: Artificial Neural Networks—ICANN 2002: International Conference Madrid, Spain, August 28–30, 2002 Proceedings 12, Springer, 2002, pp. 474–479. [14] J. Schmidhuber, Discovering neural nets with low Kolmogorov complexity and high generalization capability, Neural Netw. 10 (5) (1997) 857–873. [15] M.-J. Lai, Z. Shen, The kolmogorov superposition theorem can break the curse of dimensionality when approximating high dimensional functions, 2021, arXiv preprint arXiv:2112.09963. [16] P.-E. Leni, Y.D. Fougerolle, F. Truchetet, The kolmogorov spline network for image processing, in: Image Processing: Concepts, Methodologies, Tools, and Applications, IGI Global, 2013, pp. 54–78. [17] J. He, On the optimal expressive power of relu dnns and its application in approximation with kolmogorov superposition theorem, 2023, arXiv preprint arXiv:2308.05509. [18] A.D. Jagtap, K. Kawaguchi, G.E. Karniadakis, Adaptive activation functions accelerate convergence in deep and physics-informed neural networks, J. Comput. Phys. 404 (2020) 109136. [19] S. Guarnieri, F. Piazza, A. Uncini, Multilayer feedforward networks with adaptive spline activation function, IEEE Trans. Neural Netw. 10 (3) (1999) 672–683. [20] D. Fakhoury, E. Fakhoury, H. Speleers, ExSpliNet: An interpretable and expressive spline-based neural network, Neural Netw. 152 (2022) 332–346. [21] C.J. Vaca-Rubio, L. Blanco, R. Pereira, M. Caus, Kolmogorov-Arnold Networks (KANs) for Time Series Analysis, 2024, arXiv preprint arXiv:2405.08790. [22] M.E. Samadi, Y. Müller, A. Schuppert, Smooth Kolmogorov Arnold networks enabling structural knowledge representation, 2024, arXiv preprint arXiv: 2405.11318. [23] Z. Li, Kolmogorov-Arnold Networks are Radial Basis Function Networks, 2024, arXiv preprint arXiv:2405.06721. [24] Z. Bozorgasl, H. Chen, Wav-KAN: Wavelet Kolmogorov-Arnold Networks, 2024, arXiv:2405.12832. [25] NLNR, Jacobikan, 2024, https://github.com/mintisan/awesome-kan/. [26] SynodicMonth, ChebyKAN, 2024, https://github.com/SynodicMonth/ChebyKAN/. [27] S. SS, Chebyshev Polynomial-Based Kolmogorov-Arnold Networks: An Efficient Architecture for Nonlinear Function Approximation, 2024, arXiv preprint arXiv:2405.07200. [28] S.S. Bhattacharjee, TorchKAN: Simplified KAN Model with Variations, 2024, https://github.com/1ssb/torchkan/. [29] M. Raissi, P. Perdikaris, G.E. Karniadakis, Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations, J. Comput. Phys. 378 (2019) 686–707. [30] D.W. Abueidda, P. Pantidis, M.E. Mobasher, DeepOKAN: Deep Operator Network Based on Kolmogorov Arnold Networks for Mechanics Problems, 2024, arXiv preprint arXiv:2405.19143. [31] G.E. Karniadakis, I.G. Kevrekidis, L. Lu, P. Perdikaris, S. Wang, L. Yang, Physics-informed machine learning, Nat. Rev. Phys. 3 (6) (2021) 422–440. [32] L.D. McClenny, U.M. Braga-Neto, Self-adaptive physics-informed neural networks, J. Comput. Phys. 474 (2023) 111722. [33] Z. Wang, X. Meng, X. Jiang, H. Xiang, G.E. Karniadakis, Solution multiplicity and effects of data and eddy viscosity on Navier-Stokes solutions inferred by physics-informed neural networks, 2023, arXiv preprint arXiv:2309.06010. [34] L. Lu, P. Jin, G. Pang, Z. Zhang, G.E. Karniadakis, Learning nonlinear operators via DeepONet based on the universal approximation theorem of operators, Nat. Mach. Intell 3 (3) (2021) 218–229. [35] C. Wu, M. Zhu, Q. Tan, Y. Kartha, L. Lu, A comprehensive study of non-adaptive and residual-based adaptive sampling for physics-informed neural networks, Comput. Methods Appl. Mech. Engrg. 403 (2023) 115671. [36] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, Learning in PINNs: Phase transition, total diffusion, and generalization, 2024, arXiv preprint arXiv:2403.18494. [37] M.D. Wilkinson, M. Dumontier, I.J. Aalbersberg, G. Appleton, M. Axton, A. Baak, N. Blomberg, J.-W. Boiten, L.B. da Silva Santos, P.E. Bourne, et al., The FAIR Guiding Principles for scientific data management and stewardship, Sci. Data 3 (1) (2016) 1–9. [38] N. Tishby, F.C. Pereira, W. Bialek, The information bottleneck method, 2000, arXiv preprint physics/0004057. [39] N. Tishby, N. Zaslavsky, Deep learning and the information bottleneck principle, in: 2015 Ieee Information Theory Workshop (Itw), IEEE, 2015, pp. 1–5. [40] R. Shwartz-Ziv, N. Tishby, Opening the black box of deep neural networks via information, 2017, arXiv preprint arXiv:1703.00810. [41] Z. Goldfeld, Y. Polyanskiy, The information bottleneck problem and its applications in machine learning, IEEE J. Sel. Areas Inf. Theory 1 (1) (2020) 19–38. [42] A.F. Psaros, X. Meng, Z. Zou, L. Guo, G.E. Karniadakis, Uncertainty quantification in scientific machine learning: Methods, metrics, and comparisons, J. Comput. Phys. 477 (2023) 111902. [43] S. Cai, Z. Mao, Z. Wang, M. Yin, G.E. Karniadakis, Physics-informed neural networks (PINNs) for fluid mechanics: A review, Acta Mech. Sin. 37 (12) (2021) 1727–1738. [44] Z. Mao, A.D. Jagtap, G.E. Karniadakis, Physics-informed neural networks for high-speed flows, Comput. Methods Appl. Mech. Engrg. 360 (2020) 112789. [45] L. Yang, X. Meng, G.E. Karniadakis, B-PINNs: Bayesian physics-informed neural networks for forward and inverse PDE problems with noisy data, J. Comput. Phys. 425 (2021) 109913. [46] X. Meng, Z. Li, D. Zhang, G.E. Karniadakis, PPINN: Parareal physics-informed neural network for time-dependent PDEs, Comput. Methods Appl. Mech. Engrg. 370 (2020) 113250. [47] Z. Zou, G.E. Karniadakis, L-HYDRA: Multi-head physics-informed neural networks, 2023, arXiv preprint arXiv:2301.02152. 23 [48] Z. Zou, X. Meng, G.E. Karniadakis, Correcting model misspecification in physics-informed neural networks (PINNs), J. Comput. Phys. 505 (2024) 112918. K. Shukla et al. Computer Methods in Applied Mechanics and Engineering 431 (2024) 117290 [49] Z. Zhang, Z. Zou, E. Kuhl, G.E. Karniadakis, Discovering a reaction–diffusion model for Alzheimer’s disease by combining PINNs with symbolic regression, Comput. Methods Appl. Mech. Engrg. 419 (2024) 116647. [50] P. Chen, T. Meng, Z. Zou, J. Darbon, G.E. Karniadakis, Leveraging multitime Hamilton–Jacobi PDEs for certain scientific machine learning problems, SIAM J. Sci. Comput. 46 (2) (2024) C216–C248. [51] P. Chen, T. Meng, Z. Zou, J. Darbon, G.E. Karniadakis, Leveraging Hamilton-Jacobi PDEs with time-dependent Hamiltonians for continual scientific machine learning, in: 6th Annual Learning for Dynamics & Control Conference, PMLR, 2024, pp. 1–12. [52] Z. Li, N. Kovachki, K. Azizzadenesheli, B. Liu, K. Bhattacharya, A. Stuart, A. Anandkumar, Fourier neural operator for parametric partial differential equations, 2020, arXiv preprint arXiv:2010.08895. [53] K. Shukla, P.C. Di Leoni, J. Blackshire, D. Sparkman, G.E. Karniadakis, Physics-informed neural network for ultrasound nondestructive quantification of surface breaking cracks, J. Nondestruct. Eval. 39 (2020) 1–20. [54] K. Shukla, A.D. Jagtap, J.L. Blackshire, D. Sparkman, G.E. Karniadakis, A physics-informed neural network for quantifying the microstructural properties of polycrystalline nickel using ultrasound data: A promising approach for solving inverse problems, IEEE Signal Process. Mag. 39 (1) (2021) 68–77. [55] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, Residual-based attention in physics-informed neural networks, Comput. Methods Appl. Mech. Engrg. 421 (2024) 116805. [56] L. Lu, X. Meng, S. Cai, Z. Mao, S. Goswami, Z. Zhang, G.E. Karniadakis, A comprehensive and fair comparison of two neural operators (with practical extensions) based on fair data, Comput. Methods Appl. Mech. Engrg. 393 (2022) 114778. [57] Z. Zou, A. Kahana, E. Zhang, E. Turkel, R. Ranade, J. Pathak, G.E. Karniadakis, Large scale scattering using fast solvers based on neural operators, 2024, arXiv preprint arXiv:2405.12380. [58] K. Shukla, V. Oommen, A. Peyvan, M. Penwarden, N. Plewacki, L. Bravo, A. Ghoshal, R.M. Kirby, G.E. Karniadakis, Deep neural operators as accurate surrogates for shape optimization, Eng. Appl. Artif. Intell. 129 (2024) 107615. [59] X. Meng, L. Yang, Z. Mao, J. del Águila Ferrandis, G.E. Karniadakis, Learning functional priors and posteriors from data and physics, J. Comput. Phys. 457 (2022) 111073. [60] Z. Zou, X. Meng, A.F. Psaros, G.E. Karniadakis, NeuralUQ: A comprehensive library for uncertainty quantification in neural differential equations and operators, SIAM Rev. 66 (1) (2024) 161–190. [61] Z. Zou, X. Meng, G.E. Karniadakis, Uncertainty quantification for noisy inputs-outputs in physics-informed neural networks and neural operators, 2023, arXiv preprint arXiv:2311.11262. [62] J. Lin, Awesome-KAN, 2024, https://github.com/SpaceLearner/JacobiKAN/. [63] G. Karniadakis, S. Sherwin, Spectral/hp Element Methods for Computational Fluid Dynamics, second ed., Oxford University Press, Oxford,UK, 2005. [64] B. Ter-Avanesov, Awesome-KAN, 2024, https://github.com/Boris-73-TA/OrthogPolyKANs/. [65] G. Karniadakis, S.J. Sherwin, Spectral/hp Element Methods for Computational Fluid Dynamics, Oxford University Press, USA, 2005. [66] N. Rahaman, A. Baratin, D. Arpit, F. Draxler, M. Lin, F. Hamprecht, Y. Bengio, A. Courville, On the spectral bias of neural networks, in: International Conference on Machine Learning, PMLR, 2019, pp. 5301–5310. [67] S. Greydanus, M. Dzamba, J. Yosinski, Hamiltonian neural networks, Adv. Neural Inf. Process. Syst. 32 (2019). [68] A. Garg, S.S. Kagi, Hamiltonian neural networks, 2019. [69] D.P. Kingma, J. Ba, Adam: A method for stochastic optimization, 2014, arXiv preprint arXiv:1412.6980. [70] A. Krishnapriyan, A. Gholami, S. Zhe, R. Kirby, M.W. Mahoney, Characterizing possible failure modes in physics-informed neural networks, Adv. Neural Inf. Process. Syst. 34 (2021) 26548–26560. [71] Y. He, Z. Wang, H. Xiang, X. Jiang, D. Tang, An artificial viscosity augmented physics-informed neural network for incompressible flow, Appl. Math. Mech. 44 (7) (2023) 1101–1110. [72] J.-L. Guermond, R. Pasquetti, B. Popov, Entropy viscosity method for nonlinear conservation law, J. Comput. Phys. 230 (11) (2011) 4248–4267. [73] Z. Wang, M.S. Triantafyllou, Y. Constantinides, G. Karniadakis, An entropy-viscosity large eddy simulation study of turbulent flow in a flexible pipe, J. Fluid Mech. 859 (2019) 691–730. [74] X. Jin, S. Cai, H. Li, G.E. Karniadakis, NSFnets (Navier-Stokes flow nets): Physics-informed neural networks for the incompressible Navier-Stokes equations, J. Comput. Phys. 426 (2021) 109951. [75] S.M. Allen, J.W. Cahn, Ground state structures in ordered binary alloys with second neighbor interactions, Acta Metall. 20 (3) (1972) 423–433. [76] K. Linka, A. Schäfer, X. Meng, Z. Zou, G.E. Karniadakis, E. Kuhl, Bayesian physics informed neural networks for real-world nonlinear dynamical systems, Comput. Methods Appl. Mech. Engrg. 402 (2022) 115346. [77] M. Yin, Z. Zou, E. Zhang, C. Cavinato, J.D. Humphrey, G.E. Karniadakis, A generative modeling framework for inferring families of biomechanical constitutive laws in data-sparse regimes, J. Mech. Phys. Solids 181 (2023) 105424. [78] Z. Zou, T. Meng, P. Chen, J. Darbon, G.E. Karniadakis, Leveraging viscous Hamilton–Jacobi PDEs for uncertainty quantification in scientific machine learning, 2024, arXiv preprint arXiv:2404.08809. [79] R.M. Neal, et al., MCMC using Hamiltonian dynamics, Hand. Markov Chain Monte Carlo 2 (11) (2011) 2. [80] I. Loshchilov, F. Hutter, Decoupled weight decay regularization, 2017, arXiv preprint arXiv:1711.05101. [81] T.M. Inc, MATLAB version: 9.14.0 (r2023a), 2023, URL https://www.mathworks.com. [82] R. Shwartz-Ziv, Information flow in deep neural networks, 2022, arXiv preprint arXiv:2202.06749. [83] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, Residual-based attention and connection to information bottleneck theory in PINNs, 2023, arXiv preprint arXiv:2307.00379. [84] K. Shukla, A.D. Jagtap, G.E. Karniadakis, Parallel physics-informed neural networks via domain decomposition, J. Comput. Phys. 447 (2021) 110683.

你可能感兴趣的:(深度学习)

数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
学苑教育杂志《学苑教育》杂志社学苑教育编辑部2025年第21期目录 QQ296078736 人工智能
专题研究推进“教-学-评”一体化，打造小学语文高效课堂刘月兰;4-6教育管理新高考制度下普通高中生涯教育课程设计的研究霍亚贞;马玲;7-9课堂教学核心素养下小学数学深度学习课堂的构建策略康贵景;10-12“双减”背景下初中英语教学的课堂模式高燕;13-15小学低年级数学说理课堂构建策略玉洁;16-18基于法治观念培育的道法课项目式教学策略许静;19-21“双师课堂”在初中语文写作教学中的实践孙巧玲
使用 PyTorch 和 Pandas 进行 Kaggle 房价预测 Clang's Blog AI pytorch pandas 人工智能
文章目录1、环境设置2、数据下载3、数据预处理4、模型构建5、训练和验证6、训练模型并生成预测结果7、完整代码在本篇博文中，我们将探索如何使用PyTorch和Pandas库，构建一个用于Kaggle房价预测的模型。我们将详细讨论数据加载、预处理、模型构建、训练、验证及最终预测的全过程。1、环境设置我们首先需要导入所需的库，包括用于数据处理的pandas和numpy，以及用于深度学习的torch。i
使用中转API在Python中调用大型语言模型 (LLM) 的实践** qq_37836323 python 语言模型开发语言
**在人工智能技术中，大型语言模型(LLM)已成为自然语言处理(NLP)和生成任务的重要工具。然而，由于网络限制，直接访问OpenAI的API在中国可能面临挑战。因此，本文将介绍如何使用中转API地址http://api.wlai.vip来调用LLM，并提供相关的demo代码。什么是大型语言模型(LLM)？大型语言模型是一种深度学习模型，训练于大量文本数据上，能够生成、总结、翻译和回答问题等。Op
【免费下载】探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破
探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破在这个数字化时代，人工智能正逐步改变我们的生活，其中深度学习在农业领域的应用尤其引人注目。PlantVillage-Dataset是一个开放源代码的项目，它提供了一个庞大的植物病害识别数据集，旨在帮助开发人员和研究者利用机器学习技术改善农作物健康状况的监测。本文将深入探讨该项目的技术细节、应用价值及其独特之处。项目简
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
大模型【进阶】（一）MoE（mixture of experts）混合专家结构 ReinaXue 人工智能笔记语言模型神经网络
什么是MoE结构？MoE（MixtureofExperts，专家混合模型）是一种深度学习模型架构，通常用于处理大规模模型和计算资源效率的挑战。在MoE结构中，模型由多个“专家”组成，每个专家处理不同的任务或输入数据的不同部分，而不是让所有专家都参与每次计算。这种方式提高了计算效率，并在某些情况下有助于增强模型的表现。MoE结构的核心思想专家：在MoE模型中，专家通常指的是网络中的子模型，每个专家具
【三维目标检测】Complex-Yolov4详解（二）：模型结构 Coding的叶子 Python三维点云实战宝典 Complex-Yolo Complex-Yolov4 三维目标检测目标检测 python
本文为博主原创文章，未经博主允许不得转载。本文为专栏《python三维点云从基础到深度学习》系列文章，地址为“https://blog.csdn.net/suiyingy/article/details/124017716”。Complex-Yolo网络模型的核心思想是用鸟瞰图BEV替换Yolo网络输入的RGB图像。因此，在完成BEV处理之后，模型的训练和推理过程基本和Yolo完全一致。Yolov
基于深度学习的图像分类：使用ShuffleNet实现高效分类 Blossom.118 机器学习与人工智能深度学习分类人工智能机器学习数据挖掘 python 目标检测
前言图像分类是计算机视觉领域中的一个基础任务，其目标是将输入的图像分配到预定义的类别中。近年来，深度学习技术，尤其是卷积神经网络（CNN），在图像分类任务中取得了显著的进展。ShuffleNet是一种轻量级的深度学习架构，专为移动和嵌入式设备设计，能够在保持较高分类精度的同时，显著减少计算量和模型大小。本文将详细介绍如何使用ShuffleNet实现高效的图像分类，从理论基础到代码实现，带你一步步掌
AI人工智能领域深度学习的在线学习方法 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习学习方法 ai
AI人工智能领域深度学习的在线学习方法关键词：深度学习、在线学习、AI教育、实战项目、知识体系摘要：本文为想系统学习深度学习的初学者/转行者量身打造，通过拆解深度学习的核心概念、梳理在线学习的科学路径、提供可落地的实战案例与资源清单，帮你用“游戏通关”的思路高效掌握这门技术。无论你是学生、程序员还是跨行者，都能找到适合自己的学习节奏，避免“看视频就会，动手就废”的陷阱。背景介绍目的和范围深度学习是
AI人工智能深度学习的模型评估与选择 AI大模型应用之禅人工智能深度学习 ai
AI人工智能深度学习的模型评估与选择关键词：AI、人工智能、深度学习、模型评估、模型选择摘要：本文聚焦于AI人工智能深度学习中的模型评估与选择。在深度学习迅猛发展的当下，构建一个有效的模型并非易事，而准确评估和恰当选择模型对于模型性能的发挥和应用效果至关重要。文章将详细介绍模型评估与选择的相关背景知识，深入剖析核心概念与联系，阐述核心算法原理及具体操作步骤，运用数学模型和公式进行详细讲解并举例说明
深度学习中，定量分析和定性分析是什么？要体现什么？ seasonsyy 深度学习小知识深度学习人工智能定量分析定性分析
深度学习中，定量分析和定性分析是什么？要体现什么？在深度学习和一般的数据分析中，定量分析（QuantitativeAnalysis）和定性分析（QualitativeAnalysis）是两种主要的研究方法，它们分别关注数据的数量特征和质的特征。定量分析（QuantitativeAnalysis）定性分析（QualitativeAnalysis）关注方面定量分析涉及可量化的数据，即那些可以通过数字来
Python金融分析：情感分析在量化价值投资中的完整实现 AI量化价值投资入门到精通 python 金融开发语言 ai
Python金融分析：情感分析在量化价值投资中的完整实现关键词：Python金融分析、情感分析、量化投资、价值投资、自然语言处理、机器学习、金融文本挖掘摘要：本文系统解析如何将情感分析技术深度整合到量化价值投资体系中，通过Python实现从金融文本数据采集、预处理、情感建模到策略回测的完整流程。详细阐述基于规则引擎、机器学习和深度学习的多维度情感分析方法，结合财务指标构建复合投资模型，并通过实战案
开源深度学习新宠：Burn框架助您无忧高效建模
在日新月异的人工智能世界里，各类深度学习框架如雨后春笋般涌现，而Burn，作为新一代的深度学习框架，以其不妥协的灵活性、高效性和可移植性崭露头角。本文将深入探讨Burn的核心功能、应用场景及具体使用方法，帮助您更好地了解这款值得关注的开源项目。性能和优化：超越速度的追求Burn框架将高效性作为其核心支柱之一，通过一系列优化技术确保模型能够快速可靠地运行。以下是Burn在性能方面的几个显著特色：自动
使用 Dart 库轻松进行时间序列预测 - 立即执行多元预测 krishnaik06 深度学习 AI写作 python AI作画神经网络
这个视频介绍了名为Darts的Python库，它可以简化时间序列数据处理和预测。主要内容：解决时间序列预测难题：Darts库提供了多种模型，包括经典的ARIMA、SARIMAX，以及深度学习模型，可以轻松处理单变量和多变量时间序列预测。简化操作：Darts库使用统一的fit和predict函数，类似于scikit-learn，让用户可以轻松地使用各种模型。支持多种模型：Darts库包含ARIMA、
图像处理全栈指南：从传统算法到深度学习，再到FPGA移植阿牛的药铺图像算法区图像处理算法深度学习
图像处理全栈指南：从传统算法到深度学习，再到FPGA移植一、引言：图像处理是光学类产品的“大脑”光学类产品（可见光摄像头、红外热成像、光谱仪）的核心价值，在于将光信号转化为可理解的图像信息。而图像处理算法，就是解读这些信息的“大脑”——从传统的边缘检测到深度学习的目标识别，从实时降噪到高维光谱分割，每一步都决定了产品的性能（如分辨率、帧率、功耗）。对于算法移植工程师（科研助理1）岗位而言，需要掌握
基于Jetson Nano与PyTorch的无人机实时目标跟踪系统搭建指南
引言：边缘计算赋能智能监控在AIoT时代，将深度学习模型部署到嵌入式设备已成为行业刚需。本文将手把手指导读者在NVIDIAJetsonNano（4GB版本）开发板上，构建基于YOLOv5+SORT算法的实时目标跟踪系统，集成无人机控制与地面站监控界面，最终打造低功耗智能监控设备。通过本项目，读者将掌握：嵌入式端模型优化与部署技巧；多目标跟踪算法工程化实现；无人机-地面站协同控制架构；边缘计算场景下
gis怎么提取水系_深度学习在GIS中的应用 weixin_36214932 gis怎么提取水系
近年来，人工智能（AI）飞速发展，在诸如图像识别，图像分割和目标智能提取等任务上，达到甚至在某些方面超过了人工的准确度。人工智能在图像识别方面的优势，为AI和GIS的结合提供了前所未有的契机。人工智能，机器学习和深度学习正在帮助我们认识世界、改善世界。AI是计算机科学的一个重要分支，在某种程度上具有类似人类工作的执行能力，能以一种新的与人类相似的方式做出智能的反应，机器学习利用数据驱动算法从数据中
每天五分钟深度学习：数学中常见函数中的导数每天五分钟玩转人工智能每天五分钟玩转深度学习算法深度学习人工智能导数机器学习
本文重点导数是微积分学中的一个核心概念，它描述了函数在某一点附近的变化率。在物理学、工程学、经济学等众多领域中，导数都发挥着极其重要的作用。本文旨在详细介绍数学中常见函数的导数，以期为读者提供一个全面而深入的理解。数学中常见的导数常数函数的导数对于常数函数f(x)=C（C为常数），其导数为f'(x)=0。这是因为常数函数在任何点的切线斜率都是0，即函数值不随x的变化而变化。多项式函数的导数多项式函
无人机正摄影像自动识别与矢量提取系统 pk_xz123456 算法 python 无人机算法数据挖掘深度学习网络媒体
无人机正摄影像自动识别与矢量提取系统1.项目概述本项目旨在开发一个基于Python的自动化系统，能够从TIFF格式的无人机正摄影像中识别并提取多种地物要素，包括水边线、道路、桥梁、植被图斑、房屋、趸船和护岸。系统将采用深度学习与计算机视觉技术相结合的方法，实现高精度（95%以上）的自动识别，并将结果以带有相同坐标信息的矢量DWG/DXF格式保存。2.系统架构设计2.1总体架构系统采用模块化设计，主
玩转 Milvus（一）：解锁向量数据库的秘密，拥抱Milvus 不学无术の码农玩转 Milvus：向量搜索与 AI 实践 milvus 向量数据库
引言：向量数据库，AI时代的“超级引擎”想象一下，你上传一张猫咪照片，系统瞬间从百万张图片中挑出最相似的几张；或者在购物APP中点开一件T恤，推荐栏立刻展示你心动的搭配。这些智能体验的背后，藏着一个秘密武器——高维向量。通过深度学习模型，文本、图像、音频被转化为一串数字，捕捉它们的“灵魂”。但如何在海量向量中快速找到“最像”的那一个？传统数据库如MySQL或MongoDB束手无策，而向量数据库横空
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

Chebykan wx 文章阅读

文献筛选

DNN

原论文

完整版实验

总结：

1. 为什么是PDE残差？

2. 修正后的理解

3. 为什么不是所有残差？

4. 总结

1. 为什么“residuals”可能不是指BC residuals？

证据1：原文中的损失函数权重

证据2：问题的复杂性

证据3：RBA的作用

2. 为什么“residuals”不太可能指BC residuals？

反证1：BC residuals的性质

反证2：原文的上下文

3. 进一步证据：PINN的训练机制