对于诊断 Oracle Clusterware(CRS 或 GI)和 Real Application Cluster(RAC)问题的数据收集 (文档 ID 2017246.1)

对于诊断 Oracle Clusterware(CRS 或 GI)和 Real Application Cluster(RAC)问题的数据收集 (文档 ID 2017246.1) 转到底部转到底部

文档内容

用途
  上传到 oracle support 的数据文件类型
  排错步骤
  1. 对于 oracle 集群问题的数据收集
  2. 对于节点重启/驱逐问题的数据收集
  3. 对于 RAC 问题的数据收集
  4. 对于 RAC 性能/Hang 问题的数据收集
  5. 对于 oracle 集群安装问题的数据收集
  5.1. 对于执行 root 脚本前的错误:
  5.2. 对于执行 root 脚本过程中或之后的错误:
  附录: A RDA
  附录:B 系统日志
  附录:C 集群中的 systemstat 和 hanganalyze
  参考

适用于:

Oracle Database - Enterprise Edition - 版本 10.1.0.2 到 11.2.0.3 [发行版 10.1 到 11.2]
本文档所含信息适用于所有平台

用途

该文档是临时性的,以后会被淘汰,强烈建议使用 TFA 收集所有节点文件:

参考: note 1513912.2TFA Collector - Tool for Enhanced Diagnostic Gathering

11.2.0.4 或更高版本 TFA Collector 会默认安装在的 GI HOME下,11.2.0.3 或以下版本请参考 note 1513912.2 关于下载和安装。

 

$GI_HOME/tfa/bin/tfactl diagcollect -from "MMM/dd/yyyy hh:mm:ss" -to "MMM/dd/yyyy hh:mm:ss"
   
举例:如果问题发生在"7/1/2014 21:00:00"
我们可以通过:
"from time" 收集问题发生前4小时错误信息
"to time" 收集问题发生后4小时错误信息

 

这篇文档列出了如何搜集不同类型集群和 RAC 问题的数据信息,对于新建 SR 不强制上传所有文件,但如果所有相关信息都已上传,将加快问题的分析与处理。

上传到 oracle support 的数据文件类型


Oracle support 希望客户按节点压缩相关文件并使用标准格式,如: .tar, .gz, .Z 或 .zip。

过期的诊断信息或文件(如果是几天或几周前的诊断收集信息)不包含当前发生问题的日志信息,则可能延缓我们的分析结果。

排错步骤

 

1. 对于 oracle 集群问题的数据收集

提供集群中所有节点的当前诊断信息输出:

Note 330358.1 - CRS 10gR2/ 11gR1/ 11gR2 Diagnostic Collection Guide
Note 272332.1 - CRS 10gR1 Diagnostic Collection Guide


2. 对于节点重启/驱逐问题的数据收集

请提供“对于 Oracle 集群问题的数据收集”以及提供下面信息:

  • 重启发生的日期和时间,以及重启节点的主机名字。
  • 采样频率20秒并覆盖重启时间的 OSW 私有网络监控信息。
Note 301137.1 - OS Watcher User Guide
Note.433472.1 - OS Watcher For Windows (OSWFW) User Guide
  • 对于 11.2 以前版本,压缩(zip)并上传以下目录文件 /var/opt/oracle/oprocd/* 或 /etc/oracle/oprocd/*。
  • 对于 11.2 以前版本,OS logs –请参考附录B。
  • 对于 11gR2+ 版本,压缩并上传以下文件信息 /etc/oracle/lastgasp/* 或 /var/opt/oracle/lastgasp/*。
  • 覆盖重启时间的 CHM/OS 数据,请参考文档 Note 1328466.1 "How do I collect the Cluster Health Monitor data" 中的内容。
  • 如果第三方集群软件被使用,则需上传相应日志信息。

 

3. 对于 RAC 问题的数据收集

对于所有节点:

  • 提供 alert_{$ORACLE_SID}.log,lmon, lmd*,lms*,ckpt,lgwr,lck*,dia*,lmhb(11g only), 和所有其它问题发生时相关的跟踪文件,使用下面的举例可以快速找出相关跟踪文件:
$ grep "2010-09-02 03" *.trc | awk -F: '{print $1}' | sort -u |xargs tar cvf trace.`hostname`.`date +%Y%m%d%H%M%S`.tar

$ gzip trace*.tar

对于 11g 以前版本,在 bdump 和 udump 目录下执行。

对于 11g+ 版本,在目录${ORACLE_BASE}/diag/rdbms/$DBNAME/${ORACLE_SID}/trace下执行 。
  • 发生问题时间段里alert.log 提到的Incident files/packages
  • 如果 ASM 包含在内,则提供相应的 ASM 日志信息。
  • OS logs – 参考附件 B。

 

4. 对于 RAC 性能/Hang 问题的数据收集

提供"对于 Oracle 集群问题的数据收集"以及以下信息:

  • systemstate and hanganalyze – 参考附录 C。
  • awr,addm 和 ash 报告,每个报告采样时间不要超过60分钟。
  • OSWatcher 覆盖 hang 发生的时间段的日志。
Note 301137.1 - OS Watcher User Guide
Note.433472.1 - OS Watcher For Windows (OSWFW) User Guide
  • 覆盖发生问题时间段的 CHM/OS 数据,参考文档 Note 1328466.1 关于"How do I collect the Cluster Health Monitor data"部分。

 

5. 对于 oracle 集群安装问题的数据收集

5.1. 对于执行 root 脚本前的错误:

针对于 11gR2 版本:note 1056322.1 - Troubleshoot 11gR2 Grid Infrastructure/RAC Database runInstaller Issues

针对于 11.2 以前版本:note 406231.1 - Diagnosing RAC/RDBMS Installation Problems

5.2. 对于执行 root 脚本过程中或之后的错误:

请提供“对于 Oracle 集群问题的数据收集”以及下面文件:

  • root 脚本(root.sh 或 rootupgrade.sh)屏幕输出信息。
  • 对于 11gR2 版本:请压缩并上传目录 <$ORACLE_BASE>/cfgtoollogs 下的文件和目录 <$ORACLE_BASE>/diag 下针对于 grid 用户的数据输出。
  • 对于 11.2 以前版本:Note 240001.1 - Troubleshooting 10g or 11.1 Oracle Clusterware Root.sh Problems



附录: A RDA

建议提供集群中所有节点最近的 RDA 数据收集。

Note 314422.1 - Remote Diagnostics Agent (RDA)


附录:B 系统日志

根据 OS 平台日志在下面对应的目录中:

Linux: /var/log/messages

AIX: /bin/errpt -a (redirect this to a file called messages.out)

Solaris: /var/adm/messages

HP-UX: /var/adm/syslog/syslog.log

Tru64: /var/adm/messages

Windows: save Application Log and System Log as .TXT files using Event Viewer


注意:对于11gR2,在 linux, solaris,hp-ux 平台,诊断收集信息已包含系统日志。


附录:C 集群中的 systemstat 和 hanganalyze


为在 RAC 中搜集 hanganalyze 和 systemstate 信息,在 RAC 中的一个实例执行下面命令来产生集群 dump 文件。

a - 使用 sysdba 用户连接数据库:”sqlplus /as sysdba”
如果 sqlplus 不能正常工作,就使用”sqlplus –prelim /as sysdba”

b - 执行下面命令:

  • 在 11g + 版本:
SQL> oradebug setospid
SQL> oradebug unlimit
SQL> oradebug -g all hanganalyze 3
##..Wait about 2 minutes 
SQL> oradebug -g all hanganalyze 3
SQL> oradebug -g all dump systemstate 258


如果可能,请使用 266 级别再进行一次收集。


If SGA is large or fix for  bug 11800959 (fixed in 11.2.0.2 DB PSU5, 11.2.0.3 and above) is not applied, level 266 could take very long time and generate a huge trace file and may not finish in hours.
  • 在 10g 版本:
SQL> oradebug setospid
SQL> oradebug unlimit
SQL> oradebug -g all dump systemstate 266##..Wait about 2 minutes
SQL> oradebug -g all dump systemstate 266

请从 bdump 或 trace 目录上传 diag trace 文件。
  • 如果 diag trace 非常大或者“oradebug -g all….” 命令 hang 请在每个实例上相近的时间分别搜集系统 dump 文件:
SQL> oradebug setmypid
SQL> oradebug unlimit
SQL> oradebug hanganalyze 3
##..Wait about 2 minutes 
SQL> oradebug hanganalyze 3
SQL> oradebug dump systemstate 258
SQL> oradebug tracefile_name

      请上传以上的 trace 文件。


  • 如果“sqlplus –prelim /as sysdba” 不能正常工作,请参考 note 121779.1 使用系统的 debuggers 工具在所有的节点上执行 dbx 或 gdb 命令。

 如果 ASM 包含在内,上面的命令同样使用于 ASM 上搜集 hanganalyze 和 systemstate。

参考

NOTE:330358.1 - Oracle Clusterware 10gR2/ 11gR1/ 11gR2/ 12cR1 Diagnostic Collection Guide
NOTE:406231.1 - Diagnosing RAC/RDBMS Installation Problems
NOTE:272332.1 - CRS 10g Diagnostic Collection Guide
NOTE:433472.1 - OS Watcher For Windows (OSWFW) User Guide
NOTE:1328466.1 - Cluster Health Monitor (CHM) FAQ
NOTE:240001.1 - Troubleshooting 10g or 11.1 Oracle Clusterware Root.sh Problems
NOTE:942166.1 - How to Proceed from Failed 11gR2 Grid Infrastructure (CRS) Installation
NOTE:969254.1 - How to Proceed from Failed Upgrade to 11gR2 Grid Infrastructure on Linux/Unix
NOTE:1056322.1 - Troubleshoot Grid Infrastructure/RAC Database installer/runInstaller Issues

NOTE:736752.1 - Introducing Cluster Health Monitor (IPD/OS)
NOTE:314422.1 - Remote Diagnostic Agent (RDA) - Getting Started
NOTE:301137.1 - OSWatcher (Includes: [Video])

你可能感兴趣的:(oracle,rac&gi)