Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Análisis de parámetros MTBF y MTTR

No description
by

on 9 July 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Análisis de parámetros MTBF y MTTR

Análisis de parámetros MTBF y MTTR
Resumen
El tiempo medio entre fallas (MTBF) es un término de confiabilidad que se utiliza con demasiada ligereza en muchas industrias y, en algunas, su uso ya es abusivo. Con el correr de los años, el significado original de este término fue modificándose, y ahora causa confusión y cinismo. En gran medida, el MTBF se basa en supuestos; por eso, la definición de falla y una mirada atenta a estos detalles cobran vital importancia para lograr una
interpretación correcta.
Introducción
El tiempo medio entre fallas (MTBF) se ha utilizado por más de 60 años como fundamento para varias decisiones. Con el correr de los años, se desarrollaron más de 20 métodos y procedimientos para predecir la vida útil de los producto. Un área en particular en la que esto se hace evidente es el diseño de infraestructuras de misión crítica que albergan equipos informáticos y de telecomunicaciones. Cuando apenas unos minutos de inactividad pueden afectar en forma negativa el valor de mercado de una empresa, es crucial que la infraestructura física que sustenta este entorno de red sea confiable. Sin una sólida comprensión del MTBF, es posible que no se alcance el objetivo de confiabilidad de la empresa.
En realidad, existen más de dos definiciones de fallas; de hecho, la cantidad es infinita. Según el tipo de producto, los fabricantes pueden tener diversas definiciones de fallas.
Los fabricantes que se preocupan por la calidad aplican un control de procesos a todos los modos de fallas, lo cual, entre otros beneficios, elimina los defectos de los productos. Por lo tanto, se necesitan preguntas adicionales que definan el concepto de falla con precisión.¿Se considera falla una mala aplicación por parte del cliente? Los diseñadores podrían haber omitido factores humanos y así surgiría la tendencia de los usuarios a aplicar mal el producto. ¿Se consideran fallas las caídas de carga que ocasiona el técnico del distribuidor? ¿Es posible que el diseño del producto en sí aumente la probabilidad de fallas en un procedimiento de por sí riesgoso? Si fallara un indicador LED de una computadora, ¿se consideraría falla aunque no haya afectado el funcionamiento de la computadora? El desgaste natural de un insumo, por ejemplo, una batería, ¿se consideraría falla si presentara anomalías en forma prematura? ¿Se consideran fallas los daños sufridos durante el transporte? Podrían indicar una deficiencia en el diseño del embalaje.
¿Qué es una falla? ¿Cuáles son los supuestos?
Definición de confiabilidad, disponibilidad, MTBF y MTTR
Es claro que la importancia de definir una falla debe ser obvia y debe comprenderse antes de tratar de interpretar cualquier valor de MTBF.
Preguntas como estas son las que fijan los cimientos sobre los que pueden tomarse decisiones acerca de la confiabilidad.
Estos interrogantes deben responderse de inmediato cuando se analiza cualquier valor de MTBF. Sin las respuestas a estas preguntas, el análisis carece prácticamente de valor. Muchas veces se cita el MTBF sin ofrecer una definición de falla.Para despejar esta ambigüedad, se podría argumentar que existen dos definiciones básicas para las fallas:

1) Finalización de la capacidad de un producto en su conjunto para realizar la función requerida.

2) Finalización de la capacidad de cualquier componente individual para realizar la función requerida,
pero sin la finalización de la capacidad de un producto en su conjunto para funcionar.

El
MTBF
o Tiempo medio entre fallas constituye una medición fundamental de la confiabilidad de un sistema. Suele expresarse en unidades de horas. A mayor valor de MTBF, mayor confiabilidad presenta el producto.
El MTBF tiene incidencia tanto en la confiabilidad como en la disponibilidad.La diferencia entre confiabilidad y disponibilidad suele ignorarse y malinterpretarse. Alta disponibilidad y alta confiabilidad a menudo van de la mano, pero no son términos que puedan utilizarse indistintamente.

Confiabilidad es la capacidad de un sistema o componente para desempeñar las funciones requeridas en las condiciones establecidas por un determinado período de tiempo.

En otras palabras, es la probabilidad de que un sistema o componente realice las funciones en forma satisfactoria durante el tiempo que dure la misión especificada, sin presentar anomalías.

Disponibilidad, por otra parte, es el grado de funcionalidad y accesibilidad que presenta el sistema o componente cuando se lo necesita.

Puede pensarse como la probabilidad de que el componente o sistema esté en condiciones para cumplir con la función requerida en determinadas circunstancias y en determinado momento de un período. La disponibilidad está determinada por la confiabilidad de un sistema y también por el tiempo de recuperación ante una falla.
Unos de los errores más habituales acerca del MTBF es pensar que equivale a la cantidad de horas que se espera que funcione el sistema antes de que falle, también denominada “vida operativa”. Sin embargo, no es extraño ver valores de MTBF en el orden de los millones de horas, y sería poco razonable pensar que el sistema podría funcionar constantemente por más de 100 años sin presentar una falla. La razón por la que estos números suelen ser tan altos es porque se basan en la tasa de fallas del producto mientras aún está en el período de “vida útil” o “vida normal”, y se presupone que continuará con esta tasa por siempre.
Sin embargo, en esta etapa de la vida, el producto experimenta la menor (y constante) tasa de fallas. En realidad, los modos de deterioro del producto limitarían la vida mucho antes que lo que expresa la cifra de MTBF. Por lo tanto, no debe hacerse una correlación directa entre la vida operativa de un producto y la tasa de fallas o MTBF. Es muy factible encontrar productos con un alto grado de confiabilidad (MTBF) y un bajo nivel de vida operativa.
Como ejemplo, pensemos en un ser humano:

Se constituye una muestra poblacional con 500.000 seres humanos de 25 años de edad.
En el curso de un año, se recaban datos sobre las fallas (muertes) de esa
población.
La vida operativa de esa población es de 500.000 x 1 año = 500.000 personas/año.
A lo largo del año, fallaron (murieron) 625 personas.
La tasa de fallas es de 625 fallas / 500.000 personas/ año = 0,125%/ año.
El MTBF es la relación inversa a la tasa de fallas o 1/0,00125 = 800 años.
Si bien los seres humanos de 25 años presentan valores de MTBF altos, la expectativa de vida (vida operativa) es mucho más corta y no existe una correlación.
La realidad es que los seres humanos no presentan tasas de fallas constantes. A medida que la gente envejece, se producen más fallas (se deterioran). Por lo tanto, la única manera real de computar un valor de MTBF que equivalga a la vida operativa sería esperar que toda la muestra poblacional de personas de 25 años llegara al término de la vida. De ese modo, podría calcularse un promedio de estos intervalos de vida. La mayoría concordaría que el valor rondaría entre los 75 y 80 años.
Por eso, ¿cuál es el MTBF de las personas de 25 años? ¿80 u 800? ¡Los dos valores! Pero ¿como podría la misma población presentar dos valores de MTBF tan dispares? Todo se debe a los supuestos. Si el MTBF de 80 años refleja con mayor precisión la vida del producto (humanos, en este caso), ¿es el mejor método? Es evidente que es más intuitivo. Sin embargo, existen muchas variables que limitan el sentido práctico de utilizar este método con productos comerciales como los sistemas UPS. La mayor limitación es el tiempo. Para poder hacerlo, toda la muestra poblacional debería fallar y, en el caso de muchos productos, estaríamos hablando de un uso de 10 o 15 años. Además, aun si fuera razonable esperar este período de tiempo antes de calcular el MTBF, habría problemas para rastrear los productos.
Por último, incluso si todo esto fuera posible, la tecnología avanza a tal velocidad que, en el momento en que se pudiera calcular el valor, ya no tendría utilidad alguna. ¿Quién querría el valor de MTBF de un producto que ya ha sido reemplazado por varias generaciones de actualizaciones tecnológicas? MTTR, o tiempo medio de reparación (o recuperación), es el tiempo que se espera que un sistema tarde en recuperarse ante una falla. Este valor puede incluir el tiempo necesario para diagnosticar el problema, para que el técnico se acerque a la instalación y para reparar físicamente el sistema. Al igual que el MTBF, el MTTR se expresa en unidades de horas. Como puede apreciarse en la ecuación 2, el MTTR incide en la disponibilidad, pero no en la confiabilidad. A mayor MTTR, peor es el sistema. Para simplificar, si un sistema tarda más en recuperarse ante una falla, tendrá menor disponibilidad. La fórmula que se detalla a continuación ilustra cómo la disponibilidad general de un sistema se ve afectada tanto por el MTBF como por el MTTR. Si aumenta el MTBF, aumenta la disponibilidad. Si aumenta el MTTR, disminuye la disponibilidad.
Para que las ecuaciones 1 y 2 sean válidas, debe partirse de un supuesto básico al analizar el valor de MTBF de un sistema. A diferencia de los sistemas mecánicos, muchísimos de los sistemas electrónicos no están compuestos por partes móviles. Como consecuencia, suele aceptarse que los componentes o sistemas electrónicos presentan tasas de fallas constantes durante la vida útil operativa. La figura 1, denominada “curva en forma de bañera” de la tasa de fallas, ilustra el origen de este supuesto de que la
tasa de fallas es constante, según ya se mencionó. El "período operativo normal" o “período de vida útil" de esta curva es la etapa en la que un producto está en uso concreto. Entonces se mide la calidad del producto con respecto a una tasa de fallas constante en relación con el tiempo. En esta etapa el origen de las fallas puede incluir defectos no detectables, bajos factores de seguridad en el diseño, tensión aleatoria
mayor de la esperada, factores humanos y fallas naturales. Con períodos holgados para pruebas de envejecimiento de componentes por parte de los fabricantes, el mantenimiento adecuado y el reemplazo proactivo de partes desgastadas, debería evitarse el tipo de curva rápida de deterioro que representa el "período de desgaste".
Métodos de predicción y cálculo de valores de MTBF
Los métodos que predicen el MTBF calculan un valor basado únicamente en un diseño de sistema, en general, realizado previamente en el ciclo vital del producto. Los métodos de predicción tienen utilidad cuando los datos concretos son escasos o inexistentes.
De haber datos concretos suficientes, no deberían aplicarse los métodos de predicción. En vez de estos, habría que recurrir a métodos que calculan el MTBF porque representan mediciones concretas de las fallas. Los métodos que calculan el MTBF estiman un valor basado en una muestra de sistemas similares observados, en general, realizados después de que se ha instalado una gran cantidad de sistemas en entornos concretos. Los métodos de cálculo de MTBF son los más utilizados para valores de MTBF, principalmente porque se basan en productos reales que están sometidos a uso concreto.
Todos estos métodos son de índole estadística, lo cual significa que brindan solo una aproximación al verdadero valor de MTBF. Ningún método se estandariza en toda una industria. Por lo tanto, es vital que el fabricante comprenda y seleccione el mejor método para la aplicación en cuestión.
Métodos de predicción de confiabilidad
MIL-HDBK 217

Publicado por el ejército estadounidense en 1965, se creó el Manual Militar 217 con el fin de proporcionar un estándar para el cálculo de la confiabilidad de equipos y sistemas electrónicos militares de modo de incrementar la confiabilidad de los equipos que se diseñaran. Sentó las bases para comparar la confiabilidad de dos o más diseños similares. El Manual Militar 217 también se denomina Mil Standard 217 o, simplemente, el 217. Según el 217, existen dos maneras de predecir la confiabilidad: la Predicción por conjuntos y la Predicción por análisis del esfuerzo de las partes.
La Predicción por conjuntos suele utilizarse para predecir la confiabilidad de un producto en una etapa inicial del ciclo de desarrollo a fin de obtener un cálculo de confiabilidad aproximado con respecto al objetivo o especificación de confiabilidad.
Se calcula una tasa de fallas contando los componentes similares de un producto y agrupándolos en los distintos tipos de componentes. Luego, se multiplica la cantidad de componentes de cada conjunto por una tasa de fallas genérica que se encuentra en el manual 217. Por último, se reúnen las tasas de fallas de los distintos conjuntos de componentes para obtener la tasa de fallas final. Por definición, este método presupone que todos los componentes están conectados en serie y requiere que se calculen en forma separada las tasas de fallas para componentes no conectados en serie.

La Predicción por análisis del esfuerzo
de las partes suele utilizarse mucho más tarde en el ciclo de desarrollo del producto, una vez que el diseño de los circuitos y el hardware están a punto de entrar en producción. Es similar al método por conjuntos, ya que implica una sumatoria de tasas de fallas. Sin embargo, en este método, la tasa de fallas de cada uno de los componentes se calcula en forma individual según los niveles de esfuerzo específicos a los que se someterá cada componente. Para asignar los niveles de esfuerzo adecuados para cada
componente, deben documentarse y comprenderse a fondo el diseño del producto y el entorno esperado.
El método por esfuerzo suele arrojar una tasa de fallas inferior a la del método por conjuntos. Por el nivel de análisis que exige este método, consume mucho tiempo en comparación con otros.
Telcordia
El modelo Telcordia para predicción de confiabilidad surgió a partir de la industria de las telecomunicaciones y logra imponerse gracias a una serie de modificaciones en el transcurso de los años.
En primer lugar, fue desarrollado por Bellcore Communications Research con el nombre de Bellcore como método para calcular la confiabilidad de los equipos de telecomunicaciones. Si bien Bellcore se basa en el manual 217, sus modelos de confiabilidad (ecuaciones) se modificaron en 1985 de modo de reflejar el desempeño real de sus equipos de telecomunicaciones.
En la actualidad, se sigue aplicando el método Telcordia como herramienta de diseño de productos en esta industria.
HRD5
HRD5 es el Manual de datos de confiabilidad para componentes electrónicos (Handbook for Reliability
Data for Electronic Components) que se utiliza en sistemas de telecomunicaciones. Fue desarrollado por
British Telecom y se usa principalmente en el Reino Unido. Es parecido al 217 pero no abarca tantas variables ambientales y confecciona un modelo de predicción de confiabilidad que contempla una amplia variedad de componentes electrónicos, entre ellos, los de telecomunicaciones.
Métodos para el cálculo de confiabilidad
Método de predicción por elementos similares

Este método ofrece un medio rápido para calcular la confiabilidad basado en datos históricos de confiabilidad de un elemento similar. La eficacia de este método depende mayormente de la similitud entre el equipo nuevo y el existente, del cual se tienen datos concretos. Debe existir similitud entre los procesos de fabricación, entornos operativos, funciones y diseños de los productos. En productos que evolucionan con el tiempo, este método de producción es especialmente útil ya que aprovecha la experiencia concreta del pasado. Sin embargo, deben investigarse con sumo cuidado las diferencias y quedar reflejadas en la predicción final.
Método de medición de datos concretos

Este método se basa en la experiencia real de los productos. Quizá sea el más utilizado por los
fabricantes, ya que es parte integral del programa de control de calidad de la fábrica. Estos programas suelen denominarse Gestión de crecimiento de confiabilidad. Al rastrear la tasa de fallas de productos en uso concreto, los fabricantes pueden identificar y solucionar rápidamente los problemas e ir eliminando defectos de los productos. Dado que se basa en fallas concretas, este método contempla modos de falla que los métodos de predicción suelen excluir. El método consiste en rastrear una muestra poblacional de nuevos productos y reunir los datos de las fallas. Una vez recabados estos datos, se calculan los valores de MTBF y la tasa de fallas. La tasa de fallas es el porcentaje de una población de unidades que se espera que "fallen" en un año calendario. Además de utilizar estos datos para control de calidad, también se usan para brindar a clientes y vendedores información acerca de la confiabilidad del producto y los procesos de calidad. Al emplearse tanto entre los fabricantes, sirven de base para comparar valores de MTBF. Estas comparaciones permiten que los usuarios evalúen las diferencias de confiabilidad relativa entre productos,
lo cual ofrece una herramienta para la toma de decisiones de compra o determinación de
especificaciones. Como en toda comparación, es fundamental que las variables críticas sean las mismas en todos los sistemas que se comparen. De lo contrario, es probable que se tomen decisiones equivocadas que podrían provocar un impacto económico negativo.
Conclusiones
MTBF es una sigla “de moda” que se acostumbra utilizar en la industria informática. Se publican cifras sin comprender qué expresan en realidad. Si bien el MTBF es un indicador de confiabilidad, no representa la vida operativa que se espera de un producto. Por último, los valores de MTBF carecen de sentido sin una definición de falla y con supuestos poco razonables o ausentes.
Full transcript