[1] 神经网络:全面基础
[2] 通过sigmoid函数的超层叠近似
[3] 多层前馈网络是通用近似器
[5] 注意力是你所需要的
[6] 深度残差学习用于图像识别
[7] 视觉化神经网络的损失景观
[8] 牙齿模具点云补全通过数据增强和混合RL-GAN
[9] 强化学习:一项调查
[10] 使用PySR和SymbolicRegression.jl的科学可解释机器学习
[11] Z. Liu, Y. Wang, S. Vaidya, F. Ruehle, J. Halverson, M. Soljačić, T.Y. Hou, M. Tegmark, "KAN:科尔莫戈罗夫-阿诺德网络",2024年,arXiv预印本 arXiv:2404.19756。
[12] D.A. Sprecher, S. Draghici, "空间填充曲线和基于科尔莫戈罗夫超层叠的神经网络",《神经网络》15卷1期(2002年)57-67页。
[13] M. Köppen, "关于科尔莫戈罗夫网络的训练",收录于《人工神经网络—ICANN 2002:国际会议 马德里,西班牙,2002年8月28-30日 论文集》12卷,Springer出版社,2002年,474-479页。
[14] J. Schmidhuber, "发现具有低科尔莫戈罗夫复杂性和高泛化能力的神经网络",《神经网络》10卷5期(1997年)857-873页。
[15] M.-J. Lai, Z. Shen, "科尔莫戈罗夫超层叠定理可以在近似高维函数时打破维度诅咒",2021年,arXiv预印本 arXiv:2112.09963。
[16] P.-E. Leni, Y.D. Fougerolle, F. Truchetet, "用于图像处理的科尔莫戈罗夫样条网络",收录于《图像处理:概念、方法、工具与应用》,IGI Global出版社,2013年,54-78页。
[17] J. He, "关于ReLU DNNs的最优表达能力和其在科尔莫戈罗夫超层叠定理中的应用",2023年,arXiv预印本 arXiv:2308.05509。
[18] A.D. Jagtap, K. Kawaguchi, G.E. Karniadakis, "自适应激活函数加速深度和物理信息神经网络的收敛",《计算物理》404卷(2020年)109136。
[19] S. Guarnieri, F. Piazza, A. Uncini, "具有自适应样条激活函数的多层前馈网络",《IEEE神经网络交易》10卷3期(1999年)672-683页。
[20] D. Fakhoury, E. Fakhoury, H. Speleers, "ExSpliNet:一个可解释且表现力强的基于样条的神经网络",《神经网络》152卷(2022年)332-346页。
[21] C.J. Vaca-Rubio, L. Blanco, R. Pereira, M. Caus, "用于时间序列分析的科尔莫戈罗夫-阿诺德网络(KANs)",2024年,arXiv预印本 arXiv:2405.08790。
[22] M.E. Samadi, Y. Müller, A. Schuppert, "平滑科尔莫戈罗夫阿诺德网络,实现结构知识表示",2024年,arXiv预印本 arXiv:2405.11318。
[23] Z. Li, "科尔莫戈罗夫-阿诺德网络是径向基函数网络",2024年,arXiv预印本 arXiv:2405.06721。
[24] Z. Bozorgasl, H. Chen, "Wav-KAN:小波科尔莫戈罗夫-阿诺德网络",2024年,arXiv预印本 arXiv:2405.12832。
[26] SynodicMonth, "ChebyKAN",2024年,https://github.com/SynodicMonth/ChebyKAN/。
[27] S. SS, "基于切比雪夫多项式的科尔莫戈罗夫-阿诺德网络:非线性函数近似的有效架构",2024年,arXiv预印本 arXiv:2405.07200。【本文?】
[28] S.S. Bhattacharjee, "TorchKAN:简化KAN模型及其变体",2024年,https://github.com/1ssb/torchkan/。
[29] M. Raissi, P. Perdikaris, G.E. Karniadakis, "物理信息神经网络:解决涉及非线性偏微分方程的正问题和反问题的深度学习框架",《计算物理》378卷(2019年)686-707页。
[30] D.W. Abueidda, P. Pantidis, M.E. Mobasher, "DeepOKAN:基于科尔莫戈罗夫-阿诺德网络的深度运算网络,用于力学问题",2024年,arXiv预印本 arXiv:2405.19143。
[31] G.E. Karniadakis, I.G. Kevrekidis, L. Lu, P. Perdikaris, S. Wang, L. Yang, "物理信息机器学习",《自然综述:物理学》3卷6期(2021年)422-440页。
[32] L.D. McClenny, U.M. Braga-Neto, "自适应性物理信息神经网络",《计算物理》474卷(2023年)111722页。
[33] Z. Wang, X. Meng, X. Jiang, H. Xiang, G.E. Karniadakis, "物理信息神经网络推断的纳维-斯托克斯解的多重性及数据和涡粘性的影响",2023年,arXiv预印本 arXiv:2309.06010。
[34] L. Lu, P. Jin, G. Pang, Z. Zhang, G.E. Karniadakis, "基于运算符的通用逼近定理的DeepONet学习非线性运算符",《自然:机器智能》3卷3期(2021年)218-229页。
[35] C. Wu, M. Zhu, Q. Tan, Y. Kartha, L. Lu, "物理信息神经网络非自适应和基于残差的自适应采样的综合研究",《计算力学应用力学工程》403卷(2023年)115671页。
[36] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, "PINNs中的学习:相变、总扩散和泛化",2024年,arXiv预印本 arXiv:2403.18494。
[37] M.D. Wilkinson, M. Dumontier, I.J. Aalbersberg, G. Appleton, M. Axton, A. Baak, N. Blomberg, J.-W. Boiten, L.B. da Silva Santos, P.E. Bourne 等,"科学数据管理和监护的FAIR指导原则",《科学数据》3卷1期(2016年)1-9页。
[38] N. Tishby, F.C. Pereira, W. Bialek, "信息瓶颈方法",2000年,arXiv预印本 physics/0004057。
[39] N. Tishby, N. Zaslavsky, "深度学习与信息瓶颈原理",收录于2015 IEEE信息论研讨会(ITW),IEEE,2015年,第1-5页。
[40] R. Shwartz-Ziv, N. Tishby, "通过信息打开深度神经网络的黑箱",2017年,arXiv预印本 arXiv:1703.00810。
[41] Z. Goldfeld, Y. Polyanskiy, "信息瓶颈问题及其在机器学习中的应用",《IEEE选择领域信息论杂志》1卷1期(2020年)19-38页。
[42] A.F. Psaros, X. Meng, Z. Zou, L. Guo, G.E. Karniadakis, "科学机器学习中的不确定性量化:方法、指标和比较",《计算物理》477卷(2023年)111902页。
[43] S. Cai, Z. Mao, Z. Wang, M. Yin, G.E. Karniadakis, "用于流体力学的物理信息神经网络(PINNs):综述",《力学学报》37卷12期(2021年)1727-1738页。
[44] Z. Mao, A.D. Jagtap, G.E. Karniadakis, "用于高速流动的物理信息神经网络",《计算力学应用力学工程》360卷(2020年)112789页。
[45] L. Yang, X. Meng, G.E. Karniadakis, "B-PINNs:贝叶斯物理信息神经网络,用于带噪声数据的前向和反问题",《计算物理》425卷(2021年)109913页。
[46] X. Meng, Z. Li, D. Zhang, G.E. Karniadakis, "PPINN:用于时变偏微分方程的并行物理信息神经网络",《计算力学应用力学工程》370卷(2020年)113250页。
[47] Z. Zou, G.E. Karniadakis, "L-HYDRA:多头物理信息神经网络",2023年,arXiv预印本 arXiv:2301.02152。
[48] Z. Zou, X. Meng, G.E. Karniadakis, "在物理信息神经网络(PINNs)中纠正模型误指定",《计算物理》期刊。
[49] Z. Zhang, Z. Zou, E. Kuhl, G.E. Karniadakis, "通过结合物理信息神经网络与符号回归发现阿尔茨海默病的反应-扩散模型",《计算力学应用力学工程》419卷(2024年)116647页。
[50] P. Chen, T. Meng, Z. Zou, J. Darbon, G.E. Karniadakis, "利用多时间哈密顿-雅可比偏微分方程解决某些科学机器学习问题",《SIAM科学计算杂志》46卷2期(2024年)C216–C248页。
[51] P. Chen, T. Meng, Z. Zou, J. Darbon, G.E. Karniadakis, "利用具有时间依赖哈密顿量的哈密顿-雅可比偏微分方程进行连续科学机器学习",收录于《第六届动态与控制学习年度会议》,PMLR,2024年,第1–12页。
[52] Z. Li, N. Kovachki, K. Azizzadenesheli, B. Liu, K. Bhattacharya, A. Stuart, A. Anandkumar, "用于参数化偏微分方程的傅里叶神经运算符",2020年,arXiv预印本 arXiv:2010.08895。
[53] K. Shukla, P.C. Di Leoni, J. Blackshire, D. Sparkman, G.E. Karniadakis, "用于超声无损量化表面裂纹的物理信息神经网络",《无损评价杂志》39卷(2020年)1–20页。
[54] K. Shukla, A.D. Jagtap, J.L. Blackshire, D. Sparkman, G.E. Karniadakis, "利用超声数据通过物理信息神经网络量化多晶镍的微观结构性质:解决反问题的有前景方法",《IEEE信号处理杂志》39卷1期(2021年)68–77页。
[55] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, "物理信息神经网络中的基于残差的注意力",《计算力学应用力学工程》421卷(2024年)116805页。
[56] L. Lu, X. Meng, S. Cai, Z. Mao, S. Goswami, Z. Zhang, G.E. Karniadakis, "基于公平数据的两种神经运算符(及其实用扩展)的全面公平比较",《计算力学应用力学工程》393卷(2022年)114778页。
[57] Z. Zou, A. Kahana, E. Zhang, E. Turkel, R. Ranade, J. Pathak, G.E. Karniadakis, "使用基于神经运算符的快速求解器进行大规模散射",2024年,arXiv预印本 arXiv:2405.12380。
[58] K. Shukla, V. Oommen, A. Peyvan, M. Penwarden, N. Plewacki, L. Bravo, A. Ghoshal, R.M. Kirby, G.E. Karniadakis, "深度神经运算符作为形状优化的准确替代模型",《工程应用人工智能》129卷(2024年)107615页。
[59] X. Meng, L. Yang, Z. Mao, J. del Águila Ferrandis, G.E. Karniadakis, "从数据和物理中学习功能先验和后验",《计算物理》457卷(2022年)111073页。
[60] Z. Zou, X. Meng, A.F. Psaros, G.E. Karniadakis, "NeuralUQ:用于神经微分方程和运算符不确定性量化的综合库",《SIAM评论》66卷1期(2024年)161–190页。
[61] Z. Zou, X. Meng, G.E. Karniadakis, "物理信息神经网络和神经运算符中噪声输入-输出的不确定性量化",2023年,arXiv预印本 arXiv:2311.11262。
[62] J. Lin, "Awesome-KAN",2024年,网址:https://github.com/SpaceLearner/JacobiKAN/.
[63] G. Karniadakis, S. Sherwin, 《计算流体动力学的谱/hp元素方法》,第二版,牛津大学出版社,牛津,英国,2005年。
[64] B. Ter-Avanesov, "Awesome-KAN",2024年,网址:https://github.com/Boris-73-TA/OrthogPolyKANs/.
[65] G. Karniadakis, S.J. Sherwin, 《计算流体动力学的谱/hp元素方法》,牛津大学出版社,美国,2005年。
[66] N. Rahaman, A. Baratin, D. Arpit, F. Draxler, M. Lin, F. Hamprecht, Y. Bengio, A. Courville, "关于神经网络的谱偏倚",收录于:国际机器学习会议,PMLR,2019年,第5301–5310页。
[67] S. Greydanus, M. Dzamba, J. Yosinski, "哈密顿神经网络",《神经信息处理系统进展》32卷(2019年)。
[68] A. Garg, S.S. Kagi, "哈密顿神经网络",2019年。
[69] D.P. Kingma, J. Ba, "Adam:一种随机优化方法",2014年,arXiv预印本 arXiv:1412.6980。
[70] A. Krishnapriyan, A. Gholami, S. Zhe, R. Kirby, M.W. Mahoney, "特征物理信息神经网络的潜在失败模式",《神经信息处理系统进展》34卷(2021年)26548–26560页。
[71] Y. He, Z. Wang, H. Xiang, X. Jiang, D. Tang, "用于不可压缩流的人工粘性增强物理信息神经网络",《应用数学与力学》44卷7期(2023年)1101–1110页。
[72] J.-L. Guermond, R. Pasquetti, B. Popov, "非线性守恒律的熵粘性方法",《计算物理》230卷11期(2011年)4248–4267页。
[73] Z. Wang, M.S. Triantafyllou, Y. Constantinides, G. Karniadakis, "柔性管道中湍流流动的熵粘性大涡模拟研究",《流体力学杂志》859卷(2019年)691–730页。
[74] X. Jin, S. Cai, H. Li, G.E. Karniadakis, "NSFnets(纳维-斯托克斯流网):用于不可压缩纳维-斯托克斯方程的物理信息神经网络",《计算物理》426卷(2021年)109951页。
[75] S.M. Allen, J.W. Cahn, "有序二元合金中具有第二近邻相互作用的基态结构",《金属学报》20卷3期(1972年)423–433页。
[76] K. Linka, A. Schäfer, X. Meng, Z. Zou, G.E. Karniadakis, E. Kuhl, "用于实际非线性动力系统的贝叶斯物理信息神经网络",《计算力学应用力学工程》402卷(2022年)115346页。
[77] M. Yin, Z. Zou, E. Zhang, C. Cavinato, J.D. Humphrey, G.E. Karniadakis, "在数据稀疏情况下推断生物力学本构定律家族的生成建模框架",《力学与物理固体杂志》181卷(2023年)105424页。
[78] Z. Zou, T. Meng, P. Chen, J. Darbon, G.E. Karniadakis, "利用粘性哈密顿-雅可比PDE进行科学机器学习中的不确定性量化",2024年,arXiv预印本 arXiv:2404.08809。
[79] R.M. Neal, 等著,"使用哈密顿动力学的MCMC",《马尔可夫链蒙特卡洛手册》2卷11期(2011年)2页。
[80] I. Loshchilov, F. Hutter, "解耦权重衰减正则化",2017年,arXiv预印本 arXiv:1711.05101。
[81] T.M. Inc, "MATLAB版本:9.14.0(r2023a)",2023年,网址:https://www.mathworks.com。
[82] R. Shwartz-Ziv, "深度神经网络中的信息流",2022年,arXiv预印本 arXiv:2202.06749。
[83] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, "基于残差的注意力及其与信息瓶颈理论的联系在物理信息神经网络中",2023年,arXiv预印本 arXiv:2307.00379。
[84] K. Shukla, A.D. Jagtap, G.E. Karniadakis, "通过域分解实现并行物理信息神经网络",《计算物理》447卷(2021年)110683页。
DNN是深度神经网络(Deep Neural Network)的缩写,它是一种复杂的神经网络结构,具有多个隐藏层。深度神经网络在模式识别和机器学习领域非常流行,尤其在图像识别、语音识别和自然语言处理等任务中表现出色。
以下是DNN的一些基本特点:
多层结构:DNN由输入层、多个隐藏层和输出层组成。每一层由许多神经元(或称节点)组成,每个神经元都与前一层的所有神经元相连接。
前向传播与反向传播:在训练过程中,输入数据会通过神经网络进行前向传播,直到输出层产生结果。然后,通过反向传播算法调整网络中的权重和偏置,以减小输出结果与真实值之间的误差。
非线性激活函数:DNN通常使用非线性激活函数(如Sigmoid、ReLU或Tanh函数)来增加网络的表示能力,使得网络可以学习和模拟复杂函数。
端到端学习:DNN可以直接从原始数据中学习特征,而不需要手动特征提取,这使得它在处理复杂问题时更为有效。
强大的表达能力:由于DNN具有多层结构,它可以学习到数据的深层表示,因此在很多任务中都能达到很好的性能。
大数据需求:DNN通常需要大量的数据来训练,以便能够学习到有效的模式和特征。
随着计算能力的提升和大数据的可用性,DNN在各个领域的应用越来越广泛,对人工智能的发展起到了重要的推动作用。
【本篇详细分析了3.3部分,合格沃茨方程】
AcomprehensiveandFAIRcomparisonbetweenMLPandKAN representations for differential equations and operator networks Khemraj Shuklaa,1, Juan Diego Toscanoa,1, Zhicheng Wanga,1, Zongren Zoua,1,
、这份文档是一篇研究论文,主要探讨了使用Kolmogorov-Arnold Networks (KAN) 和 多层感知器 (MLP) 解决微分方程和算子网络问题的能力,并将其与基于 MLP 的物理信息神经网络 (PINNs) 和 深度算子网络 (DeepONets) 进行比较。
主要发现:
原始 KAN 模型 在使用 B-spline 参数化时,虽然具有一定的准确性,但效率较低,并且可能不稳定。
改进的 KAN 模型 使用低阶正交多项式作为激活函数,其性能与 PINNs 和 DeepONets 相当,但仍然缺乏鲁棒性,可能因随机种子或高阶正交多项式而发散。P1
损失函数可视化 和 信息瓶颈理论分析 表明,改进的 KAN 模型的学习动态与 PINNs 类似,都经历了拟合、扩散和总扩散三个阶段。P1P2
研究方法:
PIKAN 和 DeepOKAN: 使用改进的 KAN 模型构建物理信息机器学习模型和深度算子网络,用于求解前向和逆向微分方程问题。P1P2P5
比较实验: 在八个基准测试中比较了 MLP 和 KAN 模型的性能,包括:
不连续函数逼近P5
结构保持哈密顿动力学系统
PDE 解近似
不确定性量化
算子学习
信息瓶颈理论: 分析 PIKAN 和 PINNs 的学习动态,揭示其训练过程中的三个阶段。P2
研究意义:
FAIR 原则: 数据和代码将公开提供,以促进 KAN 模型在科学机器学习领域的进一步发展。P2
理论分析: 为 KAN 模型的收敛性和稳定性提供了理论基础。
应用潜力: KAN 模型在解决大规模 PDE、时间依赖 PDE 和算子学习问题方面具有潜在的应用价值。P22
未来研究方向:
扩展 KAN 模型在解决大规模 PDE 和时间依赖 PDE 问题中的应用。P22
研究 KAN 模型的收敛性理论。
将 DeepOKAN 模型应用于更复杂的工业问题。P22
总结:
这项研究表明,KAN 模型在解决微分方程和算子网络问题方面具有潜力,并可能成为 MLP 模型的有力替代方案。随着研究的深入,KAN 模型有望在更广泛的科学和工程领域得到应用。
实验设置:
亥姆霍兹方程: P9
PINNs和PIKANs架构:P9P10P13
训练策略:
评估指标:
实验结果:P10
结论:
总结:
该实验表明,cPIKANs 是求解亥姆霍兹方程的有力工具,具有高精度、低参数和潜在稳定性等优点。通过进一步优化网络结构和训练策略,cPIKANs 可能在更广泛的 PDE 求解领域得到应用。
实验1:亥姆霍兹方程 (Helmholtz equation)
目标: 比较PINNs和PIKANs在求解二维亥姆霍兹方程上的性能,并分析不同网络结构对结果的影响。
设置:
全局权重在这里指的是用于平衡边界条件损失和PDE 残差损失之间贡献的参数。
在 PDE 求解中,我们通常需要同时考虑模型的预测结果与边界条件和 PDE 本身的匹配程度。为了平衡这两部分的重要性,论文中使用了全局权重来调整它们的相对贡献。
w_bc: 调整边界条件损失在总损失函数中的权重。
w_pde: 调整 PDE 残差损失在总损失函数中的权重。
论文中使用了 w_bc = 1 和 w_pde = 0.01 的设置,这意味着边界条件损失比 PDE 残差损失重要。
不同模型和训练策略的相对 L2 和计算时间 (ms/it) 对比
(a) 基于 参数 的分析:使用 LBFGS 优化器和降低 PDE 贡献的偏置损失函数求解亥姆霍兹方程 (a1 = 1, a2 = 4)
(b) 基于 计算时间 的比较:使用 Adam 优化器和无偏损失函数求解亥姆霍兹方程 (a1 = 1, a2 = 4)
© 基于 复杂度 的分析:使用 Adam 优化器和无全局权重求解更高波数的亥姆霍兹方程 (a1 = a2 = 6)。 对于 cPIKAN 模型,N/A 表示“不可用”,因为在初始迭代后损失函数变为未定义。每次迭代的计算时间是在 Nvidia 的 GeForce RTX-3090 GPU 上测量的。
这部分实验主要比较了三种不同的设置下,PINNs 和 cPIKANs 求解亥姆霍兹方程的性能:
a) 基于 参数 的分析:
目标: 比较不同模型在参数匹配的情况下 (即参数数量相同) 的性能。
设置:
PINNs 和 cPIKANs:架构参数匹配,但 cPIKANs 使用 Chebyshev 多项式激活函数,PINNs 使用双曲正切激活函数。
训练策略:全局权重,RBA,LBFGS 优化器,1800 次迭代。
结果:
cPIKANs 优于 PINNs 和原始 PIKANs。P10
PINNs + RBA 是表现最好的模型。P10
目标: 比较不同模型在相同计算时间下的性能。
设置:
PINNs 和 cPIKANs:架构参数数量大致匹配,但 cPIKANs 使用 Chebyshev 多项式激活函数,PINNs 使用双曲正切激活函数。
训练策略:全局权重,RBA,Adam 优化器,2.0e5 次迭代。P10
结果:
cPIKAN + RBA 和 PINNs + RBA 表现相似。P10
cPIKAN() + RBA 稍快且略好于 cPIKAN + RBA。P10
c) 基于 复杂度 的分析:
目标: 比较不同模型在高波数情况下 (即问题更复杂) 的性能。
设置:
PINNs 和 cPIKANs:架构参数数量大致匹配,但 cPIKANs 使用 Chebyshev 多项式激活函数,PINNs 使用双曲正切激活函数。
训练策略:无全局权重,RBA,Adam 优化器,5.0e5 次迭代。P10
结果:
b) 基于 计算时间 的比较:
结果:
“Downscales” 是一个动词,通常用来描述减少规模、重要性、程度或者数量等的过程。在具体的上下文中,“downscales” 可以有不同的含义,以下是一些例子:
在图像处理中,“downscale” 通常指的是降低图像的分辨率,也就是减少图像的尺寸,这通常通过缩小图像的宽度和高度来实现。
在气候模型或地理信息系统(GIS)中,“downscale” 可能指的是将大范围的气候数据或地图信息转换为更小范围或更高分辨率的数据。
在经济学中,“downscale” 可能指的是减少企业的规模或运营水平。
在机器学习和深度学习中,如之前提到的句子,“downscale” 可以指的是减少某个特定损失项在总损失函数中的权重,从而降低它对模型训练过程的影响。
在您的上下文中,“downscales the PDE contribution” 指的是在损失函数中减少偏微分方程(PDE)项的权重,使得这部分对总损失的贡献减少。这样做可能是为了平衡不同损失项之间的比重,或者是为了达到上述提到的其他目的。
这段话描述的是在训练一个模型时的具体步骤和参数设置,下面是对每个部分的详细解释:
基于复杂性的分析。为了增加问题的复杂性,我们求解具有更高波数的亥姆霍兹方程(即 a1 = a2 = 6)。这一修改在偏微分方程残差中诱导了更陡峭的梯度,使得神经网络难以近似。对于PINN,我们使用每层128个神经元的六层隐藏层,而对于cPIKAN和cPIKAN®,我们使用五层、每层32个神经元,以及 k = 5。与前面的情况一样,我们使用无偏损失函数(wbc = wpde = 1)训练我们的模型,并且仅在残差中使用RBA(从零开始),使用 η* = 1e-3。我们使用Adam优化器更新网络参数,进行5e5次全批量迭代,学习率从5e-4降至5e-5。在这种情况下,使用更高的学习率会在cPIKAN模型中引起不稳定性。
最佳表现模型的预测及其对应的点对点误差如图9(b)所示。表3(c)显示,cPIKAN+RBA优于其他方法,实现了0.414%的相对L2误差。然而请注意,cPIKAN®+RBA的性能和收敛历史(见图10©)与其他方法是相当的。
在上述引用的对话内容中,“并且仅在残差中使用RBA(从零开始)” 这句话的意思是指,在训练神经网络模型时,仅在对偏微分方程(PDE)的残差进行优化时应用了残差平衡算法(Residual Balancing Algorithm,简称RBA)。这里的“从零开始”意味着在训练过程的初始阶段,RBA的调整是 从零或者初始状态开始的。
具体来说,这里的几个关键点解释如下:
残差:在神经网络求解PDE的过程中,残差是指PDE的实际解与神经网络预测解之间的差异。
RBA(残差平衡算法):这是一种用于改善神经网络求解PDE的方法,它通过调整残差项来提高模型的训练效率和精度。
综上所述,这句话描述的是在模型训练中,如何特别地处理和优化PDE残差的部分,以提高模型对PDE解的近似能力。
仅在残差中使用RBA:这意味着RBA只被应用于优化残差部分,而不是整个损失函数。损失函数通常由多个部分组成,比如数据拟合项、正则化项等,而在这里RBA只影响残差部分。
从零开始:这表明在训练开始时,RBA的调整是初始的,没有预先设定的权重或者调整量,而是随着训练过程的进行逐渐调整。
Unbiased Loss Function:
= = 1
表示在损失函数中,不同部分的权重是相等的。这里的
和
可能分别代表损失函数中的边界条件项和数据拟合项的权重。将它们都设置为1意味着这两部分在损失函数中的贡献是相同的,没有对任何一部分进行加权,因此称为“无偏”的损失函数。Apply RBA (initiated at zero):
综合以上解释,这段话的意思是:在训练模型时,使用了一个无偏的损失函数,其中边界条件项和数据拟合项的权重都是1。同时,只在损失函数的残差部分应用了从零开始的RBA,并且设置RBA的调整率为0.001,以优化模型对PDE解的近似。这样的设置旨在平衡损失函数的不同部分,并专注于提高模型在满足PDE残差方面的性能。
Using ∗ = 1−3:
∗
是RBA中的一个参数,通常称为学习率或者调整率,它控制了RBA对残差项进行调整的幅度。1−3
表示这个参数的值是0.001(科学记数法表示)。这个值是比较小的,意味着RBA对残差的调整是非常精细的,以避免在训练过程中产生过大的波动。“Initiated at zero” 确实指的是初值为零。在这个上下文中,它意味着在开始应用 RBA(Residual Balancing Algorithm)时,其调整参数的初始值被设置为零。这通常指的是开始时不对残差进行任何额外的加权,随着训练的进行,这个值会根据算法的需要进行调整。
所以,更准确的解释应该是:
因此,整段话的意思是:
在这段文字中,"apply RBA (initiated at zero) only in the residuals using ∗ = 1−3" 是指在训练过程中使用了一种称为**残差平衡算法(Residual Balancing Algorithm, RBA)的技术,并且该算法仅在残差(residuals)**部分应用。具体来说:
RBA (Residual Balancing Algorithm):
RBA 是一种用于平衡损失函数中不同项(如边界条件损失和PDE残差损失)的算法。它的目的是通过动态调整不同损失项的权重,使得训练过程更加稳定和高效。
在这里,RBA 被用来平衡 PDE 残差损失(residuals)的权重。
initiated at zero:
这意味着在训练开始时,RBA 的权重初始值为零。也就是说,初始时 RBA 不会对损失函数产生影响,随着训练的进行,RBA 会逐渐调整权重。
only in the residuals:
RBA 仅应用于 PDE 残差部分,而不是整个损失函数。这意味着 RBA 只会调整 PDE 残差损失的权重,而不会影响其他部分(如边界条件损失)。
using ∗ = 1−3:
∗ 是 RBA 的一个超参数,控制权重调整的速率。∗ = 1−3 表示权重调整的步长较小,以确保调整过程平稳,避免过大的波动。
"apply RBA (initiated at zero) only in the residuals using ∗ = 1−3" 的意思是:在训练过程中,使用 RBA 算法来动态调整 PDE 残差损失的权重,且 RBA 的权重初始值为零,调整的步长为 1−3。RBA 仅作用于 PDE 残差部分,而不影响其他损失项(如边界条件损失)。
这种做法的目的是通过动态调整 PDE 残差的权重,使得神经网络在训练过程中能够更好地处理 PDE 残差中的陡峭梯度,从而提高模型的收敛性和稳定性。
在原文中,提到的是“apply RBA (initiated at zero) only in the residuals using ∗ = 1−3”。这里的“residuals”确实需要更准确的解释。根据上下文,这里的“residuals”更可能是指PDE的残差部分,而不是泛指所有残差。以下是我的分析依据和修正:
在物理信息神经网络(PINN)或相关方法(如cPIKAN)中,损失函数通常由两部分组成:
PDE残差(PDE residuals):衡量神经网络解是否满足偏微分方程(PDE)。
边界条件残差(Boundary condition residuals):衡量神经网络解是否满足边界条件。
原文中提到“unbiased loss function ( = = 1)”,这表明损失函数中已经明确区分了边界条件损失()和PDE残差损失()。
接下来提到“apply RBA only in the residuals”,结合上下文,这里的“residuals”更可能是指PDE残差,因为RBA的目的是动态调整损失函数中不同部分的权重,而PDE残差通常是训练中更难优化的部分(尤其是当波数增加时,PDE残差的梯度会变得更陡峭)。
“apply RBA (initiated at zero) only in the residuals using ∗ = 1−3” 的意思是:
在训练过程中,使用RBA算法动态调整PDE残差部分的权重。
RBA的权重初始值为零(initiated at zero),即初始时不调整权重。
调整的步长为 ∗ = 1−3,这是一个较小的值,以确保权重调整过程平稳。
RBA仅作用于PDE残差部分,而不影响边界条件残差或其他损失项。
如果RBA应用于所有残差(包括边界条件残差),原文可能会更明确地提到“all residuals”或“both PDE and boundary condition residuals”。
由于PDE残差通常是训练中更难优化的部分(尤其是在高波数情况下),因此RBA更可能被专门用于PDE残差部分,以帮助模型更好地处理陡峭梯度。
结合上下文和PINN的常见训练方法,这里的“residuals”更可能是指PDE残差,而不是所有残差。因此,RBA被应用于PDE残差部分,以动态调整其权重,从而帮助模型更好地收敛。
我们需要仔细分析原文中的上下文和PINN的训练机制,来判断“residuals”是否可能指边界条件残差(BC residuals),而不是PDE残差。以下是我的详细分析和证据:
原文提到:“we train our model with an unbiased loss function ( = = 1)”。
这里明确区分了边界条件损失()和PDE残差损失(),并且两者的初始权重均为1。
如果RBA应用于BC residuals,那么原文可能会更明确地提到“apply RBA to boundary conditions”或“apply RBA to ”。
但原文说的是“apply RBA only in the residuals”,这里的“residuals”更可能是指PDE residuals,因为PDE residuals通常是训练中更难优化的部分。
原文提到:“This modification induces steeper gradients in the PDE residuals, making it difficult for the neural network to approximate.”
这里明确指出,高波数会导致PDE residuals中的梯度变得更陡峭,从而增加训练的难度。
因此,RBA更可能被用于处理PDE residuals,因为这是训练中的主要难点。
RBA的目的是动态调整损失函数中不同部分的权重,以平衡训练的难度。
在PINN中,PDE residuals通常比BC residuals更难优化,尤其是在高波数情况下。
因此,RBA更可能被用于PDE residuals,而不是BC residuals。
BC residuals通常比PDE residuals更容易优化,因为边界条件通常是明确的(例如Dirichlet或Neumann条件),并且计算相对简单。
如果RBA应用于BC residuals,那么它的作用可能不如应用于PDE residuals显著。
原文的重点是解决高波数Helmholtz方程,这会导致PDE residuals中的梯度变得非常陡峭。
如果RBA仅应用于BC residuals,那么它对解决高波数问题的帮助可能有限。
在PINN中,PDE residuals和BC residuals通常是分开计算的。
PDE residuals是通过神经网络解代入PDE得到的。
BC residuals是通过神经网络解在边界上的值与真实边界条件的差异得到的。
如果RBA应用于BC residuals,那么它只会调整BC residuals的权重,而不会直接影响PDE residuals。
这与原文中提到的“steeper gradients in the PDE residuals”不太吻合。
综合以上分析,原文中的“residuals”更可能是指PDE residuals,而不是BC residuals。证据包括:
原文明确区分了PDE residuals和BC residuals,并指出PDE residuals在高波数情况下更难优化。
RBA的作用是动态调整损失函数中不同部分的权重,而PDE residuals通常是训练中的主要难点。
如果RBA应用于BC residuals,那么它对解决高波数问题的帮助可能有限。
当然,如果原文有其他上下文或细节表明“residuals”可能包括BC residuals,我们可以进一步讨论。但目前的分析支持“residuals”指PDE residuals的结论。
实验2:不可压缩 Navier-Stokes 方程 (Navier-Stokes equation)
目标: 比较PINNs和PIKANs在求解二维不可压缩 Navier-Stokes 方程上的性能,并分析不同多项式类型对结果的影响。
设置:
结果:
实验3:Allen-Cahn 方程 (Allen-Cahn equation)
目标: 比较PINNs和PIKANs在求解二维 Allen-Cahn 方程上的性能。
设置:
结果:
实验4:反应扩散方程 (Reaction-diffusion equation)
目标: 使用 B-cPIKAN 和 B-PINN 解决带噪声数据的 1D 反应扩散方程逆向问题。P16
设置:
结果:
实验5:Burgers 方程 (Burgers equation)
目标: 比较DeepONet和DeepOKAN在求解 1D Burgers 方程算子学习任务上的性能。
设置:
结果:
实验6:Darcy 问题 (Darcy problem)
目标: 比较DeepONet和DeepOKAN在求解 2D Darcy 问题算子学习任务上的性能。
设置:
结果:
信息瓶颈理论分析:P20P21
拟合阶段: 损失函数和残差呈现有序模式,SNR 从高到低,模型紧密拟合训练数据。P20P21
扩散阶段: SNR 波动,残差逐渐无序,模型探索最小化训练误差的方向。P20P21
总扩散阶段: SNR 突然增加并收敛到临界值,残差无序,模型简化内部表示,提高效率和泛化能力,预测结果接近解析解。P20P21
总结:
论文中 PDE 方面的实验涵盖了多种问题,包括亥姆霍兹方程、不可压缩 Navier-Stokes 方程、Allen-Cahn 方程、反应扩散方程、Burgers 方程和 Darcy 问题。实验结果表明,cPIKANs 在求解 PDE 方面具有潜力,并可以与 PINNs 相媲美。此外,DeepOKANs 在算子学习任务中表现出色,并对噪声输入函数更具鲁棒性。信息瓶颈理论分析揭示了 PINNs 和 cPIKANs 的学习动态,为理解模型行为和改进训练策略提供了指导。
文中的相对 L2 误差是通过以下步骤计算得出的:
计算预测解与解析解之间的差异: 对于每个测试点,使用模型预测的解 u_pred 和解析解 u_analytical,计算它们之间的差异,即残差 e_i = u_pred(x_i) - u_analytical(x_i)。
计算残差平方和: 将所有测试点的残差平方求和,得到总残差平方和。
计算解析解平方和: 将所有测试点的解析解平方求和,得到解析解的平方和。
计算相对 L2 误差: 将总残差平方和除以解析解的平方和,得到相对 L2 误差。公式如下:
相对 L2 误差 = (Σ_i (u_pred(x_i) - u_analytical(x_i))^2) / (Σ_i (u_analytical(x_i))^2)
其中:
u_pred(x_i): 模型在测试点 x_i 处的预测解。
u_analytical(x_i): 解析解在测试点 x_i 处的值。
x_i: 测试点的空间坐标。
解释:
相对 L2 误差衡量了模型预测解与解析解之间的差异,误差越小,说明模型预测精度越高。
L2 范数(即欧几里得范数)在这里被用作衡量差异的指标,因为它具有一些良好的性质,例如可加性和均方根性质。
相对 L2 误差通过将残差平方和除以解析解的平方和进行归一化,使得不同问题的误差可以直接比较。
敏感性分析的目的:
实验设置和观察结果:
损失景观的可视化:
损失景观的特点:
总的来说,这段文本通过敏感性分析探讨了不同网络架构参数对cPIKAN模型稳定性和性能的影响,并通过损失景观的可视化揭示了模型对初始化的敏感性以及如何通过修改模型结构来提高稳定性
[1] S. Haykin, Neural Networks: A Comprehensive Foundation, Prentice Hall PTR, 1998. [2] G. Cybenko, Approximation by superpositions of a sigmoidal function, Math. Control Signals Syst. 2 (4) (1989) 303–314. [3] K. Hornik, M. Stinchcombe, H. White, Multilayer feedforward networks are universal approximators, Neural Net. 2 (5) (1989) 359–366. [4] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, Y. Bengio, Generative adversarial networks, Commun. ACM 63 (11) (2020) 139–144. [5] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A.N. Gomez, Ł. Kaiser, I. Polosukhin, Attention is all you need, Adv. Neural Inf. Process. Syst. 30 (2017). [6] K. He, X. Zhang, S. Ren, J. Sun, Deep residual learning for image recognition, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 770–778. [7] H. Li, Z. Xu, G. Taylor, C. Studer, T. Goldstein, Visualizing the loss landscape of neural nets, Adv. Neural Inf. Process. Syst. 31 (2018). [8] J.D. Toscano, C. Zuniga-Navarrete, W.D.J. Siu, L.J. Segura, H. Sun, Teeth mold point cloud completion via data augmentation and hybrid rl-gan, J. Comput. Inf. Sci. Eng. 23 (4) (2023) 041008. [9] L.P. Kaelbling, M.L. Littman, A.W. Moore, Reinforcement learning: A survey, J. Artif. Intell. Res. 4 (1996) 237–285. [10] M. Cranmer, Interpretable machine learning for science with PySR and SymbolicRegression. jl, 2023, arXiv preprint arXiv:2305.01582. [11] Z. Liu, Y. Wang, S. Vaidya, F. Ruehle, J. Halverson, M. Soljačić, T.Y. Hou, M. Tegmark, KAN: Kolmogorov-Arnold networks, 2024, arXiv preprint arXiv:2404.19756. [12] D.A. Sprecher, S. Draghici, Space-filling curves and Kolmogorov superposition-based neural networks, Neural Netw. 15 (1) (2002) 57–67. [13] M. Köppen, On the training of a Kolmogorov network, in: Artificial Neural Networks—ICANN 2002: International Conference Madrid, Spain, August 28–30, 2002 Proceedings 12, Springer, 2002, pp. 474–479. [14] J. Schmidhuber, Discovering neural nets with low Kolmogorov complexity and high generalization capability, Neural Netw. 10 (5) (1997) 857–873. [15] M.-J. Lai, Z. Shen, The kolmogorov superposition theorem can break the curse of dimensionality when approximating high dimensional functions, 2021, arXiv preprint arXiv:2112.09963. [16] P.-E. Leni, Y.D. Fougerolle, F. Truchetet, The kolmogorov spline network for image processing, in: Image Processing: Concepts, Methodologies, Tools, and Applications, IGI Global, 2013, pp. 54–78. [17] J. He, On the optimal expressive power of relu dnns and its application in approximation with kolmogorov superposition theorem, 2023, arXiv preprint arXiv:2308.05509. [18] A.D. Jagtap, K. Kawaguchi, G.E. Karniadakis, Adaptive activation functions accelerate convergence in deep and physics-informed neural networks, J. Comput. Phys. 404 (2020) 109136. [19] S. Guarnieri, F. Piazza, A. Uncini, Multilayer feedforward networks with adaptive spline activation function, IEEE Trans. Neural Netw. 10 (3) (1999) 672–683. [20] D. Fakhoury, E. Fakhoury, H. Speleers, ExSpliNet: An interpretable and expressive spline-based neural network, Neural Netw. 152 (2022) 332–346. [21] C.J. Vaca-Rubio, L. Blanco, R. Pereira, M. Caus, Kolmogorov-Arnold Networks (KANs) for Time Series Analysis, 2024, arXiv preprint arXiv:2405.08790. [22] M.E. Samadi, Y. Müller, A. Schuppert, Smooth Kolmogorov Arnold networks enabling structural knowledge representation, 2024, arXiv preprint arXiv: 2405.11318. [23] Z. Li, Kolmogorov-Arnold Networks are Radial Basis Function Networks, 2024, arXiv preprint arXiv:2405.06721. [24] Z. Bozorgasl, H. Chen, Wav-KAN: Wavelet Kolmogorov-Arnold Networks, 2024, arXiv:2405.12832. [25] NLNR, Jacobikan, 2024, https://github.com/mintisan/awesome-kan/. [26] SynodicMonth, ChebyKAN, 2024, https://github.com/SynodicMonth/ChebyKAN/. [27] S. SS, Chebyshev Polynomial-Based Kolmogorov-Arnold Networks: An Efficient Architecture for Nonlinear Function Approximation, 2024, arXiv preprint arXiv:2405.07200. [28] S.S. Bhattacharjee, TorchKAN: Simplified KAN Model with Variations, 2024, https://github.com/1ssb/torchkan/. [29] M. Raissi, P. Perdikaris, G.E. Karniadakis, Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations, J. Comput. Phys. 378 (2019) 686–707. [30] D.W. Abueidda, P. Pantidis, M.E. Mobasher, DeepOKAN: Deep Operator Network Based on Kolmogorov Arnold Networks for Mechanics Problems, 2024, arXiv preprint arXiv:2405.19143. [31] G.E. Karniadakis, I.G. Kevrekidis, L. Lu, P. Perdikaris, S. Wang, L. Yang, Physics-informed machine learning, Nat. Rev. Phys. 3 (6) (2021) 422–440. [32] L.D. McClenny, U.M. Braga-Neto, Self-adaptive physics-informed neural networks, J. Comput. Phys. 474 (2023) 111722. [33] Z. Wang, X. Meng, X. Jiang, H. Xiang, G.E. Karniadakis, Solution multiplicity and effects of data and eddy viscosity on Navier-Stokes solutions inferred by physics-informed neural networks, 2023, arXiv preprint arXiv:2309.06010. [34] L. Lu, P. Jin, G. Pang, Z. Zhang, G.E. Karniadakis, Learning nonlinear operators via DeepONet based on the universal approximation theorem of operators, Nat. Mach. Intell 3 (3) (2021) 218–229. [35] C. Wu, M. Zhu, Q. Tan, Y. Kartha, L. Lu, A comprehensive study of non-adaptive and residual-based adaptive sampling for physics-informed neural networks, Comput. Methods Appl. Mech. Engrg. 403 (2023) 115671. [36] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, Learning in PINNs: Phase transition, total diffusion, and generalization, 2024, arXiv preprint arXiv:2403.18494. [37] M.D. Wilkinson, M. Dumontier, I.J. Aalbersberg, G. Appleton, M. Axton, A. Baak, N. Blomberg, J.-W. Boiten, L.B. da Silva Santos, P.E. Bourne, et al., The FAIR Guiding Principles for scientific data management and stewardship, Sci. Data 3 (1) (2016) 1–9. [38] N. Tishby, F.C. Pereira, W. Bialek, The information bottleneck method, 2000, arXiv preprint physics/0004057. [39] N. Tishby, N. Zaslavsky, Deep learning and the information bottleneck principle, in: 2015 Ieee Information Theory Workshop (Itw), IEEE, 2015, pp. 1–5. [40] R. Shwartz-Ziv, N. Tishby, Opening the black box of deep neural networks via information, 2017, arXiv preprint arXiv:1703.00810. [41] Z. Goldfeld, Y. Polyanskiy, The information bottleneck problem and its applications in machine learning, IEEE J. Sel. Areas Inf. Theory 1 (1) (2020) 19–38. [42] A.F. Psaros, X. Meng, Z. Zou, L. Guo, G.E. Karniadakis, Uncertainty quantification in scientific machine learning: Methods, metrics, and comparisons, J. Comput. Phys. 477 (2023) 111902. [43] S. Cai, Z. Mao, Z. Wang, M. Yin, G.E. Karniadakis, Physics-informed neural networks (PINNs) for fluid mechanics: A review, Acta Mech. Sin. 37 (12) (2021) 1727–1738. [44] Z. Mao, A.D. Jagtap, G.E. Karniadakis, Physics-informed neural networks for high-speed flows, Comput. Methods Appl. Mech. Engrg. 360 (2020) 112789. [45] L. Yang, X. Meng, G.E. Karniadakis, B-PINNs: Bayesian physics-informed neural networks for forward and inverse PDE problems with noisy data, J. Comput. Phys. 425 (2021) 109913. [46] X. Meng, Z. Li, D. Zhang, G.E. Karniadakis, PPINN: Parareal physics-informed neural network for time-dependent PDEs, Comput. Methods Appl. Mech. Engrg. 370 (2020) 113250. [47] Z. Zou, G.E. Karniadakis, L-HYDRA: Multi-head physics-informed neural networks, 2023, arXiv preprint arXiv:2301.02152. 23 [48] Z. Zou, X. Meng, G.E. Karniadakis, Correcting model misspecification in physics-informed neural networks (PINNs), J. Comput. Phys. 505 (2024) 112918. K. Shukla et al. Computer Methods in Applied Mechanics and Engineering 431 (2024) 117290 [49] Z. Zhang, Z. Zou, E. Kuhl, G.E. Karniadakis, Discovering a reaction–diffusion model for Alzheimer’s disease by combining PINNs with symbolic regression, Comput. Methods Appl. Mech. Engrg. 419 (2024) 116647. [50] P. Chen, T. Meng, Z. Zou, J. Darbon, G.E. Karniadakis, Leveraging multitime Hamilton–Jacobi PDEs for certain scientific machine learning problems, SIAM J. Sci. Comput. 46 (2) (2024) C216–C248. [51] P. Chen, T. Meng, Z. Zou, J. Darbon, G.E. Karniadakis, Leveraging Hamilton-Jacobi PDEs with time-dependent Hamiltonians for continual scientific machine learning, in: 6th Annual Learning for Dynamics & Control Conference, PMLR, 2024, pp. 1–12. [52] Z. Li, N. Kovachki, K. Azizzadenesheli, B. Liu, K. Bhattacharya, A. Stuart, A. Anandkumar, Fourier neural operator for parametric partial differential equations, 2020, arXiv preprint arXiv:2010.08895. [53] K. Shukla, P.C. Di Leoni, J. Blackshire, D. Sparkman, G.E. Karniadakis, Physics-informed neural network for ultrasound nondestructive quantification of surface breaking cracks, J. Nondestruct. Eval. 39 (2020) 1–20. [54] K. Shukla, A.D. Jagtap, J.L. Blackshire, D. Sparkman, G.E. Karniadakis, A physics-informed neural network for quantifying the microstructural properties of polycrystalline nickel using ultrasound data: A promising approach for solving inverse problems, IEEE Signal Process. Mag. 39 (1) (2021) 68–77. [55] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, Residual-based attention in physics-informed neural networks, Comput. Methods Appl. Mech. Engrg. 421 (2024) 116805. [56] L. Lu, X. Meng, S. Cai, Z. Mao, S. Goswami, Z. Zhang, G.E. Karniadakis, A comprehensive and fair comparison of two neural operators (with practical extensions) based on fair data, Comput. Methods Appl. Mech. Engrg. 393 (2022) 114778. [57] Z. Zou, A. Kahana, E. Zhang, E. Turkel, R. Ranade, J. Pathak, G.E. Karniadakis, Large scale scattering using fast solvers based on neural operators, 2024, arXiv preprint arXiv:2405.12380. [58] K. Shukla, V. Oommen, A. Peyvan, M. Penwarden, N. Plewacki, L. Bravo, A. Ghoshal, R.M. Kirby, G.E. Karniadakis, Deep neural operators as accurate surrogates for shape optimization, Eng. Appl. Artif. Intell. 129 (2024) 107615. [59] X. Meng, L. Yang, Z. Mao, J. del Águila Ferrandis, G.E. Karniadakis, Learning functional priors and posteriors from data and physics, J. Comput. Phys. 457 (2022) 111073. [60] Z. Zou, X. Meng, A.F. Psaros, G.E. Karniadakis, NeuralUQ: A comprehensive library for uncertainty quantification in neural differential equations and operators, SIAM Rev. 66 (1) (2024) 161–190. [61] Z. Zou, X. Meng, G.E. Karniadakis, Uncertainty quantification for noisy inputs-outputs in physics-informed neural networks and neural operators, 2023, arXiv preprint arXiv:2311.11262. [62] J. Lin, Awesome-KAN, 2024, https://github.com/SpaceLearner/JacobiKAN/. [63] G. Karniadakis, S. Sherwin, Spectral/hp Element Methods for Computational Fluid Dynamics, second ed., Oxford University Press, Oxford,UK, 2005. [64] B. Ter-Avanesov, Awesome-KAN, 2024, https://github.com/Boris-73-TA/OrthogPolyKANs/. [65] G. Karniadakis, S.J. Sherwin, Spectral/hp Element Methods for Computational Fluid Dynamics, Oxford University Press, USA, 2005. [66] N. Rahaman, A. Baratin, D. Arpit, F. Draxler, M. Lin, F. Hamprecht, Y. Bengio, A. Courville, On the spectral bias of neural networks, in: International Conference on Machine Learning, PMLR, 2019, pp. 5301–5310. [67] S. Greydanus, M. Dzamba, J. Yosinski, Hamiltonian neural networks, Adv. Neural Inf. Process. Syst. 32 (2019). [68] A. Garg, S.S. Kagi, Hamiltonian neural networks, 2019. [69] D.P. Kingma, J. Ba, Adam: A method for stochastic optimization, 2014, arXiv preprint arXiv:1412.6980. [70] A. Krishnapriyan, A. Gholami, S. Zhe, R. Kirby, M.W. Mahoney, Characterizing possible failure modes in physics-informed neural networks, Adv. Neural Inf. Process. Syst. 34 (2021) 26548–26560. [71] Y. He, Z. Wang, H. Xiang, X. Jiang, D. Tang, An artificial viscosity augmented physics-informed neural network for incompressible flow, Appl. Math. Mech. 44 (7) (2023) 1101–1110. [72] J.-L. Guermond, R. Pasquetti, B. Popov, Entropy viscosity method for nonlinear conservation law, J. Comput. Phys. 230 (11) (2011) 4248–4267. [73] Z. Wang, M.S. Triantafyllou, Y. Constantinides, G. Karniadakis, An entropy-viscosity large eddy simulation study of turbulent flow in a flexible pipe, J. Fluid Mech. 859 (2019) 691–730. [74] X. Jin, S. Cai, H. Li, G.E. Karniadakis, NSFnets (Navier-Stokes flow nets): Physics-informed neural networks for the incompressible Navier-Stokes equations, J. Comput. Phys. 426 (2021) 109951. [75] S.M. Allen, J.W. Cahn, Ground state structures in ordered binary alloys with second neighbor interactions, Acta Metall. 20 (3) (1972) 423–433. [76] K. Linka, A. Schäfer, X. Meng, Z. Zou, G.E. Karniadakis, E. Kuhl, Bayesian physics informed neural networks for real-world nonlinear dynamical systems, Comput. Methods Appl. Mech. Engrg. 402 (2022) 115346. [77] M. Yin, Z. Zou, E. Zhang, C. Cavinato, J.D. Humphrey, G.E. Karniadakis, A generative modeling framework for inferring families of biomechanical constitutive laws in data-sparse regimes, J. Mech. Phys. Solids 181 (2023) 105424. [78] Z. Zou, T. Meng, P. Chen, J. Darbon, G.E. Karniadakis, Leveraging viscous Hamilton–Jacobi PDEs for uncertainty quantification in scientific machine learning, 2024, arXiv preprint arXiv:2404.08809. [79] R.M. Neal, et al., MCMC using Hamiltonian dynamics, Hand. Markov Chain Monte Carlo 2 (11) (2011) 2. [80] I. Loshchilov, F. Hutter, Decoupled weight decay regularization, 2017, arXiv preprint arXiv:1711.05101. [81] T.M. Inc, MATLAB version: 9.14.0 (r2023a), 2023, URL https://www.mathworks.com. [82] R. Shwartz-Ziv, Information flow in deep neural networks, 2022, arXiv preprint arXiv:2202.06749. [83] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, Residual-based attention and connection to information bottleneck theory in PINNs, 2023, arXiv preprint arXiv:2307.00379. [84] K. Shukla, A.D. Jagtap, G.E. Karniadakis, Parallel physics-informed neural networks via domain decomposition, J. Comput. Phys. 447 (2021) 110683.