]> git.uio.no Git - check_openmanage.git/blob - CHANGES
jau
[check_openmanage.git] / CHANGES
1 3.6.1   2010-10-02
2 ------------------
3
4 * Included new check for SD cards. Newer servers such as the R710 can
5   have SD cards installed, these should be monitored. The SD card
6   check is on by default. A new blacklisting keyword 'sd' has been
7   added. The SD card check can be turned off with '--check sdcard=0'.
8 * Handle special cases where power monitoring capability is disabled
9   due to non-redundant and/or non-instrumented power supplies.
10 * For physical disks probed via SNMP, check that values for vendor,
11   product ID and capacity is available before attempting to display
12   those values.
13 * If a physical disk is in sufficiently bad condition, the vendor
14   field reported by OMSA may be empty. The plugin now handles this
15   situation without throwing an internal error.
16
17
18 3.6.0   2010-08-30
19 ------------------
20
21 * Storage is no longer allowed to be absent. If the plugin doesn't
22   find a storage controller, it will give an alert. For diskless
23   systems or servers without a Dell controller that OMSA recognizes
24   you will now have to specify '--no-storage' or '--check storage=0'
25   to work around this.
26 * Report the system revision (if applicable) wherever the model name
27   is printed. E.g. "PowerEdge 2950 III" instead of "PowerEdge 2950".
28 * Small change in search path for omreport: The new location for OMSA
29   6.2.0 and later on Linux will be attempted first.
30 * Small bugfix for the '--check' parameter, if the argument is a
31   filename. The file could not contain a linebreak, this has been
32   fixed.
33 * Added an option '--no-storage', which is equivalent to the general
34   option '--check storage=0'.
35
36
37 3.5.10  2010-07-14
38 ------------------
39
40 * If a physical disk is a hot spare, display this information in
41   the debug output
42 * Report the bus protocol (e.g. SAS, SATA) and media type (e.g. HDD,
43   SDD) for physical disks in the debug output, if applicable
44 * Minor fix for 100GB physical disks, write "100GB" instead of "99GB"
45 * SNMP: Use new features of OMSA 6.3.0 to display occupied and total
46   slots in storage enclosures, if applicable. This information is not
47   available with omreport and check_openmanage will not display this
48   info in local mode.
49 * SNMP: Added new processor IDs from the OMSA 6.3.0 MIBs
50 * SNMP: Use connection tables in a proper way to determine controller
51   and enclosure IDs, for use with physical disks and enclosure
52   components (fan, temp sensors etc.). This fixes a long standing bug
53   for servers with more than one controller, if checked via SNMP.
54 * SNMP: Use the nexus ID as last resort to find the controller for
55   physical disks. Workaround for older, broken OMSA versions.
56 * SNMP: Identify enclosures (e.g. '2:0:0') properly so that the
57   reporting with SNMP corresponds to the same report with omreport.
58 * SNMP: added a couple of workarounds for pre-historic OMSA versions
59
60
61 3.5.9   2010-06-29
62 ------------------
63
64 * More fine-grained reporting of temperature warnings for enclosure
65   temperature probes.
66 * Max/min temperature limits for enclosure temp probes are reported in
67   the debug output
68 * Report enclosure temperature probes that are "Inactive" as ok
69 * Don't try to print out the reading of enclosure temperature probes
70   if the reading doesn't exist or is not an integer
71 * Report enclosure EMMs that are "Not Installed" as ok, instead of
72   critical
73 * Corrected typo in the PNP4Nagios template
74
75
76 3.5.8   2010-06-17
77 ------------------
78
79 * Remove reporting of which controller a logical drive is "attached"
80   to, since this information can't be reliably extracted via SNMP.
81 * Avoid collecting Lun ID via SNMP for virtual disks, we don't use it
82 * Report total memory and number of dimms in the ok output
83 * Difference in reporting if amperage probes have discrete readings
84 * Workaround for broken amperage probes
85 * Added workaround for bad temperature probes that yields no reading
86   in SNMP mode
87 * Get OMSA version via SNMP slightly more efficiently
88
89
90 3.5.7   2010-03-19
91 ------------------
92
93 * Added robustness for received SNMP values that are not defined in
94   the MIB. Instead of throwing a perl warning when this happens, the
95   plugin will not report the undefined value.
96 * Defined "Replacing" as a defined state for physical disks in SNMP
97   mode, even though this state is not defined in the MIB. It is
98   reported as such by omreport.
99 * Physical disk brand/model is now reported when the state of the disk
100   is "Rebuilding" or "Replacing".
101 * The state of a physical disk is reported in parentheses when
102   predictive failure is detected. It is useful to know if a disk is
103   online, offline, spare or even failed when predictive failure is
104   reported.
105 * Handling of physical disk predictive failure has been improved
106   overall.
107 * Refactoring of the perfdata code. In conformance with the plugin
108   development guidelines, the UOM (unit of measure) previously
109   reported in the perfdata output has been removed.
110 * The -p or --perfdata option now
111   takes an optional agrument 'minimal', which triggers shorter names
112   for the perfomance data labels. This shortens the output and is a
113   workaround for systems where the amount of output exceeds the 1024
114   char limit of NRPE.
115 * The PNP4Nagios template has been updated. Users of check_openmanage
116   and PNP4Nagios are advised to upgrade. This version of
117   check_openmanage needs the new template.
118 * Lots of other small improvements and updates.
119
120
121 3.5.6   2010-02-23
122 ------------------
123
124 * New option '--use-get_table' is added as a workaround for SNMPv3 on
125   Windows using net-snmp. This option will make check_openmanage use
126   the Net::SNMP function get_table() instead of get_entries() to
127   collect information via SNMP.
128 * Include a blacklisting option 'ctrl_pdisk' which takes the
129   controller number as argument. This blacklisting option only works
130   with omreport and is a workaround for broken disk firmwares that
131   contain illegal XML characters. These characters makes openmanage
132   barf and exit with an error. Patch from Bas Couwenberg.
133 * If the blacklisting keyword "all" is supplied for a component type,
134   that component type is not checked at all, i.e. the commands are
135   never executed. This will make check_openmanage execute faster if
136   blacklisting is heavily used.
137 * Option '--htmlinfo' now has a shorter equivalent '-I'
138 * The option '--short-state' now has a shorter equivalent '-S'
139
140
141 3.5.5   2010-01-22
142 ------------------
143
144 * Fixed an SNMP bug where the plugin didn't handle OID indexes that
145   were not sequential. Thanks to Gianluca Varenni for reporting.
146 * Fixed an SNMP bug when checking old hardware such as the PE 2650 and
147   PE 750. The controller id for physical drives were collected and
148   displayed incorrectly. This release uses an additional OID to fetch
149   this info, which would otherwise be unavailable. Thanks to Gianluca
150   Varenni for reporting this bug.
151 * Should use %snmp_probestatus, not %snmp_status when checking the
152   status of voltage probes. Thanks to Ken McKinlay for a patch.
153 * Fix when identifying blades via SNMP with very old OMSA
154   versions. Patch from Ken McKinlay.
155 * Better way of finding the ID of physical drives via SNMP
156
157
158 3.5.4   2010-01-13
159 ------------------
160
161 * Added support for storport driver version for controllers, only
162   applicable on servers running Windows.  A new blacklisting keyword
163   for suppressing storport driver messages was added.
164 * The "all" keyword in blacklisting is now case insensitive.
165 * More fine-grained reporting in the rare case where a controller
166   battery fails during learning and charging states.
167 * New improved way of reporting perl warnings during execution of the
168   plugin.
169
170
171 3.5.3   2009-12-17
172 ------------------
173
174 * Fix for path to omreport on Linux with OMSA 6.2.0
175 * A couple of other small fixes
176
177
178 3.5.2   2009-11-17
179 ------------------
180
181 * Fix for undefined device name for logical drives (thanks to Pontus
182   Fuchs for a patch)
183 * Fixed a bug in the PNP4Nagios template, that prevented the template
184   from working with PNP4Nagios 0.6. Thanks to the PNP4Nagios team for
185   the fix.
186 * Other small fixes
187
188 3.5.1   2009-10-22
189 ------------------
190
191 * CPU type, family etc. are now reported in case of a CPU failure (and
192   in the debug output)
193 * The debug output now reports Openmanage version and plugin version
194
195
196 3.5.0   2009-10-13
197 ------------------
198
199 * New option '-a' or '--all' turns on checking of everything
200 * The manual page (POD info) is removed from the script and is now in
201   a separate file, to make check_openmanage fully ePN compatible
202 * ePN is no longer disabled by default, check_openmanage no longer has
203   an opinion on whether it should run under ePN or not
204 * The '-m' or '--man' option is no longer available
205 * The option '-v' or '--verbose' is renamed to '-d' or '--debug',
206   which makes more sense wrt. its usage
207 * The '-g' or '--global' option is removed. Checking the global health
208   status is now default if applicable
209 * Checking intrusion detection is now turned on by default
210 * The obsolete option '--snmp' is removed
211 * The option '--state' now has a shorter equivalent '-s'
212 * The basename stuff and options '--only-critical' and
213   '--only-warning' are now replaced by an option '--only'
214 * If plugin is run by Nagios, redirect stderr to stdout
215 * Added option '--omreport', that lets the user specify the full path
216   to the omreport binary
217 * Added non-8bit-legacy default search paths for omreport.exe for
218   Windows boxen
219 * Minor changes to the plugin output, for consistency
220 * New blacklisting keyword 'bat_charge' disables warning messages
221   related to controller cache battery charging. Thanks to Robert
222   Heinzmann for a patch.
223 * For blacklisting, the component ID kan now be "ALL", in which all
224   components of that type is blacklisted.
225 * Man page is moved to manual section 8
226
227
228 3.4.9   2009-08-07
229 ------------------
230
231 * Fixed a bug that could cause errors and weird results when checking
232   cooling devices (fans) via SNMP. Thanks to Ken McKinlay for spotting
233   this bug and reporting it.
234
235 3.4.8   2009-07-31
236 ------------------
237
238 * For failed physical drives, check_openmanage will now output the
239   drive's vendor, model and size in GB or TB.
240
241 3.4.7   2009-07-24
242 ------------------
243
244 * The -s|--snmp option was redundant and no longer does anything. SNMP
245   is triggered automatically if the -H|--hostname option is
246   present. The -s|--snmp option is kept for compatibility, but has no
247   effect.
248
249 3.4.6   2009-07-07
250 ------------------
251
252 * Added support for performance data (temperatures) from attached
253   storage enclosures such as the MD1000
254
255 3.4.5   2009-06-22
256 ------------------
257
258 * Fixed a regression in the --htmlinfo option when it is not supplied
259   with an argument
260
261 3.4.4   2009-06-22
262 ------------------
263
264 * New option --htmlinfo adds clickable HTML links in the plugin's
265   output
266
267 3.4.3   2009-06-11
268 ------------------
269
270 * Fixed a regression bug in CPU and power supply reporting that only
271   affects verbose output
272 * If blacklisting is used, the global health check (via the --global
273   option) is now negated. Checking the global health doesn't make
274   sense when one or more components is blacklisted. Thanks to Rene
275   Beaulieu for reporting this bug
276 * The PNP4Nagios template is now included in the tarball and zip
277   archive
278
279 3.4.2   2009-06-03
280 ------------------
281
282 * Improved memory error reporting, when using omreport
283 * Collect performance data from pwrmonitoring (amperage probes) that
284   were previously ignored when using omreport
285
286 3.4.1   2009-05-25
287 ------------------
288
289 * Improved memory error reporting, when using SNMP
290 * Other small ehnancements
291
292 3.4.0   2009-05-25
293 ------------------
294
295 * The plugin is now compatible with the Nagios embedded Perl
296   interpreter (ePN) in theory. However, the plugin will not not use
297   ePN by default. We don't want any "accidents".
298 * License is now GPLv3, previously only specified as "GPL"
299 * New options --only-critical and --only-warning. With these options
300   the plugin will only print critical or warning alerts, respectively.
301 * Bugfixes and speed enhancements in the storage section, when
302   checking enclosure components via omreport
303 * The --okinfo option is now less verbose and more to the point
304 * Lots of code refactoring for readability, maintainability and
305   robustness
306
307 3.3.2   2009-05-05
308 ------------------
309
310 * Fixed a bug in the storage section, when checking controllers. This
311   is an obscure bug that only manifests itself in the odd case where a
312   server has multiple controllers, and one of the controllers are
313   missing some of the OIDs, in which case these OIDs will be missing
314   for the other controllers as well. The change is minor and only
315   includes using get_table() instead of get_entries() to collect the
316   SNMP result. Thanks to Stephan Bovet for reporting this bug.
317
318 3.3.1   2009-04-28
319 ------------------
320
321 * The --perfdata option can now optionally take an argument
322   "multiline", which makes the plugin produce multiline performance
323   data output in a Nagios 3.x way. Not really needed, but the plugin
324   output is prettier.
325 * Added comment within the 10 first lines to disable the nagios
326   embedded perl (ePN) interpreter by default for Nagios 3.x
327 * Improvements in the performance data output. Units are now included
328
329 3.3.0   2009-04-07
330 ------------------
331
332 * Added --global option, which turns on checking of everything. If
333   used with SNMP, the global system health status is also probed, to
334   protect the user against bugs in the plugin. If used with omreport,
335   the overall chassis health is used.
336 * Support for SNMP version 3
337 * New check added: esmhealth. This checks the overall health of the
338   ESM log, i.e. the fill grade. More than 80% means a warning message
339 * Fixed alert log reporting to use the same format as for the ESM log
340 * Output messages are now sorted by severity
341 * Minor changes in how out-of-date controller firmware/driver is
342   reported
343 * Code refactoring and cleanup
344
345 3.2.7   2009-03-29
346 ------------------
347
348 * Use "omreport about" to collect OMSA version. Slightly faster than
349   "omreport system version". This should give a small speedup in
350   certain configurations
351 * Fixed typo in output when a logical drive is rebuilding. Thanks to
352   Andreas Olsson for reporting
353 * Improved reporting of ESM log content
354 * Added omreport.sh as alternate omreport path
355 * Lots of other small fixes and enhancements
356
357 Plus: A few changes to make the plugin work with old PowerEdge models
358 (e.g. 2550, 2450) and/or old OMSA versions (e.g. version 4.5):
359
360 * Use the chassisModelName OID to determine if SNMP works (instead of
361   BaseboardType)
362 * No longer require a response when checking baseboard type via
363   SNMP. If there is no response, we assume that we're not dealing with
364   a blade server
365
366 Thanks to Christian McHugh for help with testing and debugging this
367 stuff
368
369 3.2.6   2009-03-05
370 ------------------
371
372 * Use 'omreport system operatingsystem' to collect OS info, instead of
373   'omreport system' version which is incredibly slow. This should speed
374   things up in certain configurations.
375 * A few speedups, don't collect information that isn't needed
376 * Man page fixes
377
378 3.2.5   2009-02-24
379 ------------------
380
381 * New option --linebreak to specify the separator between line in case
382   of multiline output
383 * Added support for 64bit Windows. Thanks to Patrick Hemmen for a patch
384 * [Patrick Hemmen] Added install.bat for Windows installation
385 * [Patrick Hemmen] Improvements on install.sh. Will now install in
386   /usr/lib64 for x86_64
387 * RPMs are now architecture dependent, because of different libdir
388
389 3.2.4   2009-02-17
390 ------------------
391
392 * New option -o|--ok-info to display extra information when everything
393   is ok. The plugin can now display storage firmware and driver info,
394   DRAC and BMC firmware, and OMSA version
395 * Support for setting custom minimum temperature thresholds via the
396   -c|--critical and -w|--warning options
397 * Better and more detailed temperature error reporting
398 * Bugfix in the amperage report (including performance data). The
399   plugin now takes into account the correct unit and measurement for
400   amperage probes (other than watts)
401 * New option --port lets the user specify the remote SNMP port number
402
403 3.2.3   2009-02-09
404 ------------------
405
406 * Regression fix: Use the older Processor Device SNMP OIDs for older
407   PowerEdge models, that don't have the new Processor Device Status
408   OIDs. Thanks to Nicole Hähnel for reporting this bug.
409 * Default output (when there are no alerts) now shows RAC firmware,
410   BMC firmware, info about controllers and enclosures (firmware,
411   driver).
412
413 3.2.2   2009-02-03
414 ------------------
415
416 * Regression fix: Ignore unoccupied CPU slots with SNMP probing. This
417   fixes a bug introduced in versjon 3.2.1, which would output
418   something like this if one or more CPU slots were empty: CPU 1 needs
419   attention ()
420
421 3.2.1   2009-02-03
422 ------------------
423
424 * Use Processor Device Status Table OIDs instead of Processor Device
425   Table when checking CPUs via SNMP
426 * Bugfix: don't report throttled CPUs as warnings when checking via
427   SNMP (same as for checking locally)
428
429 3.2.0   2009-01-27
430 ------------------
431
432 * New options --state and --short-state for displaying service state
433   along with the alert
434 * Lots of small fixes for code readability and maintainability
435
436 3.1.1   2009-01-12
437 ------------------
438
439 * Support for running natively on Windows (using omreport.exe). Thanks
440   to Peter Jestico for a patch.
441 * Support for compiled Windows version, i.e. check_openmanage.exe is
442   now a legal script name.
443 * Exit with error if script basename is illegal/unknown
444 * Various small fixes
445
446 3.1.0   2008-12-26
447 ------------------
448
449 * Use of alternate basenames for checking only one class of components
450 * Added support for checking the ESM log via SNMP
451 * Code refactoring for robustness and maintainability
452 * Numerous small fixes and enhancements
453 * Added install script in distribution tarball
454
455 3.0.2   2008-12-20
456 ------------------
457
458 * The script no longer aborts if it can't get system information via
459   SNMP. Give a warning instead, as this is not a critical error
460 * Increased robustness when checking controllers
461
462 3.0.1   2008-12-11
463 ------------------
464
465 * Man page fix in the 'check' section. Thanks to Ansgar Dahlen for
466   reporting this.
467 * Allow invalid command error from 'omreport chassis pwrmonitoring'
468 * Various small fixes
469
470 3.0.0   2008-12-04
471 ------------------
472
473 * Use unique IDs for storage components with regard to blacklisting,
474   which means that the blacklisting API has changed
475 * Added checks for storage components: connectors (channels),
476   enclosures, enclosure fans, enclosure power supplies, enclosure
477   temperature probes and enclosure management modules (EMMs)
478 * Improved verbose output
479 * New option -t|--timeout for setting the plugin timeout
480 * New option -w|--warning for setting custom temperature warning
481   thresholds
482 * New option -c|--critical for setting custom temperature critical
483   thresholds
484 * Option --check can no longer be specified in its short form (-c)
485 * Code cleanup and improvements
486
487 2.1.1   2008-11-24
488 ------------------
489
490 * The workaround for the OMSA bug introduced in OMSA 5.5.0 didn't take
491   multiple controllers into account. This has been fixed.
492
493 2.1.0   2008-11-19
494 ------------------
495
496 * New option -i|--info prefixes all alerts with the service tag
497 * New option -e|--extinfo gives and extra line of output in case of an
498   alert (model and service tag)
499 * New option --postmsg lets the user specify a post message string,
500   with info such as model, service tag etc.
501 * Options -b|--blacklist and -c|--check can now be specified multiple
502   times (actually quite useful)
503
504 2.0.9   2008-11-17
505 ------------------
506
507 * Slightly improved output for alerts on logical drives (vdisks)
508 * Now shows a rebuilding physical disk as a warning, as this is
509   usually accompanied by a degraded vdisk. Previous versions didn't
510   show this at all (omreport classifies it as "OK").
511
512 2.0.8   2008-11-14
513 ------------------
514
515 * Slightly improved output for charging controller batteries
516
517 2.0.7   2008-11-12
518 ------------------
519
520 * Bugfix for reporting physical drives with predictive failure (both
521   via NRPE and SNMP)
522
523 2.0.6   2008-10-30
524 ------------------
525
526 * Fix bug in option handling (ambiguous options)
527 * Slightly improved output if checking the storage subsystem is turned
528   off
529 * Don't complain if there are no logical drives. This is OK. Thanks to
530   Jamie Henderson for reporting this
531
532 2.0.5   2008-10-29
533 ------------------
534
535 * Fix bug in SNMP status level table
536
537 2.0.4   2008-10-29
538 ------------------
539
540 * Added workaround for a BUG introduced in OpenManage 5.5.0. OM
541   sometimes adds a newline in the controller driver version name,
542   which leads to problems parsing the output. Thanks to Hiren Patel
543   for bringing this to my attention.
544
545 2.0.3   2008-10-28
546 ------------------
547
548 * (snmp) Improved handling of cases where OM is not working properly
549
550 2.0.2   2008-10-27
551 ------------------
552
553 * Fixed issue where controller number for physical disks can't be
554   established via SNMP (now identifies as controller no. -1)
555
556 2.0.1   2008-10-23
557 ------------------
558
559 * Correctly identifies and reports error condition in which OpenManage
560   has stopped working (it happens)
561
562 2.0.0   2008-10-23
563 ------------------
564
565 * SNMP support
566 * Same options for checking, blacklisting etc. supported with SNMP
567 * Same output with SNMP as with NRPE
568
569 1.2.1   2008-09-25
570 ------------------
571
572 * Collects performance data if the option '-p' or '--perfdata' is
573   supplied.
574 * New blacklisting directives ctrl_fw and ctrl_driver
575   added. Suppresses the "special" warning messages concerning outdated
576   controller firmware and driver. Useful if you can't or won't
577   upgrade.
578
579 1.1.2   2008-08-06
580 ------------------
581
582 * Fix getting system model and serial number for newer blades
583
584 1.1.1   2008-08-06
585 ------------------
586
587 * Three new checks added:
588   - System battery probes (typical CMOS battery). Newer poweredge
589     models have these
590   - Power consumption monitoring (if the server supports it)
591   - ESM log, with same functionality as the alert log check. Disabled
592     by default.
593
594 1.1.0   2008-08-04
595 ------------------
596
597 * Internal refactoring: use ssv-formatted output from openmanage,
598   resulting in slightly faster execution and increased robustness.
599 * If /usr/bin/omreport doesn't exist, try
600   /opt/dell/srvadmin/oma/bin/omreport.
601 * Allow for no instrumented/redundant power supplies. Needed on
602   low-end poweredge models and blades.
603
604 1.0.3   2008-07-25
605 ------------------
606
607 * Openmanage reports non-critical warning about throttled CPUs on new
608   hardware models. Most og us use ondemand CPU frequency scaling (with
609   throttled CPUs as a result). This specific non-critical warning (CPU
610   Throttled) is ignored from now on.
611 * Remove superfluous Celcius sign when reporting temperatures.
612
613 1.0.2   2008-07-25
614 ------------------
615
616 * Accommodate blade systems with no fans or powersupplies, i.e. accept
617   errors from omreport when trying to check fans or powersupplies on
618   blade servers.
619 * Accommodate newer hardware with slightly different omreport
620   options. Use the newer options if they exist. Not really necessary
621   yet, but deprecated options may be removed in future versions of
622   Dell OpenManage.
623
624 1.0.1   2008-07-18
625 ------------------
626
627 * When everything is OK, check_openmanage now outputs the same info as
628   Gerhard Lausser's excellent check_hpasm plugin does for HP servers:
629
630   OK - System: 'poweredge 2850', S/N: 'XXXXXXX', ROM: 'A06
631   10/03/2006', hardware working fine, 2 logical drives, 4 physical
632   drives
633
634 1.0.0   2008-07-15
635 ------------------
636
637 * Initial release