Estudio de mecanismos de contingencia en la nube para los servicios tecnolgicos de un centro de datos en formacin

 

Study of contingency mechanisms in the cloud for the technological services of a data center in training

 

Estudo de mecanismos de contingncia na nuvem para os servios tecnolgicos de um data center em treinamento

 

 

Francisco Alvarez I     
francisco.alvarezs@ug.edu.ec
https://orcid.org/0000-0002-2491-1162
,Nell Valencia II 
nelly.valenciam@ug.edu.ec
https://orcid.org/0000-0001-6905-3125
Janeth Daz-Vera III 
janeth.diazv@ug.edu.ec
https://orcid.org/0000-0001-8750-0216
,Alejandro Gallegos IV 
alejandro.gallegosa@ug.edu.ec https://orcid.org/0009-0001-4770-1627
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Correspondencia: francisco.alvarezs@ug.edu.ec

 

 

Ciencias de la Computacin

Artculo de Investigacin

* Recibido: 23 de abril de 2023 *Aceptado: 12 de mayo de 2023 * Publicado: 01 de junio de 2023

 

  1. Docente Universidad de Guayaquil, Ecuador.
  2. Docente Universidad de Guayaquil, Ecuador.
  3. Docente Universidad de Guayaquil, Ecuador.
  4. Estudiante Universidad de Guayaquil, Ecuador.

Resumen

La Recuperacin en caso de la afectacin de los Servicios, siempre ha sido una preocupacin constante, entre los Administradores de la Tecnologa de la Informacin, pero es recin en los ltimos aos, con los continuos avances de la Informtica en la Nube, en que su implementacin generalizada, se ha vuelto viable. En el caso del Centro de Datos de la Carrera de Software, que est en su etapa inicial, se requiere conocer las alternativas existentes en nuestro mercado, para una implementacin posterior, lo cual nos conduce a estudiar las caractersticas tcnicas, operativas y financieras de los servicios DRaaS (Disaster Recovery as a Services) de los tres proveedores de informtica en la Nube, con mayor participacin del mercado mundial. Esto nos permite elaborar un cuadro comparativo que resume la informacin obtenida, y que es una gua para un anlisis posterior, relacionado con las necesidades de la organizacin y del Centro de Datos. Este trabajo incluye una prueba de concepto, de los servicios DRaaS de uno de estos tres proveedores, cuyos resultados fueron muy aleccionadores. La conclusin general del estudio realizado es que se confirma la viabilidad financiera, tcnica y operativa, de la implementacin de los mecanismos de contingencia contenidos en los servicios DRaaS, para las empresas de todos los tamaos. Tambin, se deja establecida la necesidad de que, la seleccin del proveedor de este servicio para esta organizacin incluya la obligatoriedad de realizar una prueba de concepto de todas las alternativas ofrecidas. Omitirla, es un factor de riesgo importante. Finalmente, es necesario ejecutar proyectos subsecuentes, que continen, complementen y amplen los resultados obtenidos con el presente estudio.

Palabras Clave: Contingencia; DRaaS; Nube; Recuperacin; Resiliencia; RPO; RTO.

 

Abstract

Recovery in case of affectation of Services has always been a constant concern among Information Technology Administrators, but it is only in recent years, with the continuous advances in Cloud Computing, that its widespread implementation, it has become feasible. In the case of the Data Center of the Software Career, which is in its initial stage, it is necessary to know the existing alternatives in our market, for a later implementation, which leads us to study the technical, operational and financial characteristics of the DRaaS (Disaster Recovery as a Services) services from the three cloud computing providers with the largest global market share. This allows us to prepare a comparative table that summarizes the information obtained, and that is a guide for further analysis, related to the needs of the organization and the Data Center. This work includes a proof of concept, of the DRaaS services of one of these three providers, whose results were very instructive. The general conclusion of the study carried out is that the financial, technical and operational viability of the implementation of the contingency mechanisms contained in the DRaaS services is confirmed for companies of all sizes. Also, the need is established for the selection of the provider of this service for this organization to include the obligation to carry out a proof of concept of all the alternatives offered. Omitting it is an important risk factor. Finally, it is necessary to carry out subsequent projects, which continue, complement and expand the results obtained with the present study.

Keywords: Contingency; DRaaS; Cloud; Recovery; Resilience; RPO; RTO.

 

Resumo

A recuperao em caso de afetao de Servios sempre foi uma preocupao constante entre os Administradores de Tecnologia da Informao, mas somente nos ltimos anos, com os contnuos avanos da Computao em Nuvem, que sua ampla implementao se tornou vivel. No caso do Data Center da Carreira Software, que se encontra na sua fase inicial, necessrio conhecer as alternativas existentes no nosso mercado, para uma posterior implementao, o que nos leva a estudar as caractersticas tcnicas, operacionais e financeiras do Servios DRaaS (Disaster Recovery as a Services) dos trs provedores de computao em nuvem com a maior participao no mercado global. Isto permite-nos preparar um quadro comparativo que sintetiza a informao obtida, e que serve de guia para anlises posteriores, relacionadas com as necessidades da organizao e do Data Center. Este trabalho inclui uma prova de conceito, dos servios DRaaS de um destes trs provedores, cujos resultados foram bastante instrutivos. A concluso geral do estudo realizado que se confirma a viabilidade financeira, tcnica e operacional da implantao dos mecanismos de contingncia contidos nos servios DRaaS para empresas de todos os portes. Tambm se estabelece a necessidade de a seleo do prestador deste servio para esta organizao incluir a obrigao de realizar uma prova de conceito de todas as alternativas oferecidas. A omisso um importante fator de risco. Por fim, necessrio realizar projetos posteriores, que dem continuidade, complementem e ampliem os resultados obtidos com o presente estudo.

Palavras-chave: Contingncia; DRaaS; Nuvem; Recuperao; Resilincia; RPO; RTO.

Introduccin

El estudio de los mecanismos de contingencia en la nube pblica, que se realiz con este trabajo, es posible asociarlo con la practica denominada, en ITIL V4 (AXELOS Limited, 2019, p.151), como Gestin de Disponibilidad, All se define a la Disponibilidad como La capacidad de un servicio de TI u otro elemento de configuracin para realizar su funcin acordada cuando se requiera. Adicionalmente, es preciso destacar que, en la Norma ISO 27002:2022 (International Organization for Standardization, 2022, p.8) se establece que la Disponibilidad es una de las propiedades de la Seguridad de la Informacin (p.8), o sea que es uno de los tres atributos mediante el cual se puede establecer si los diversos controles ayudan a preservarlo o no.

Las consideraciones para la Disponibilidad estn presentes en todo servicio que est funcionando, ya que, ante la presencia de eventos que perturben o afecten su estabilidad, es necesario actuar para que los servicios tecnolgicos que se estn entregando no se interrumpan. Acorde con Chakraborty & Chowdhury (2020). se pueden tener fallas de distinto origen:

Amenazas fsicas (fallas de Hardware, interrupcin del servicio de energa elctrica, eventos naturales, terrorismo, huelgas, etc.) y amenazas lgicas (fallas del Software, ataques de programa maligno o ransomware, degradacin del rendimiento, corrupcin de los archivos, etc.).

Es en el momento en que se presenta alguna de las fallas mencionadas, que las actividades que son propias de la prctica de la Gestin de la Disponibilidad y de la Continuidad del Negocio (anlisis de riesgos, su mitigacin, planificacin para saber qu hacer ante la ocurrencia de eventos contingentes, la ejecucin de las medidas de prevencin, etc.), cobran una gran importancia para sostener los planes operativos y estratgicos de las organizaciones.

Acorde con Terinte (2018) y de las revisiones efectuadas de los distintos ofrecimientos de los proveedores de la nube pblica, se ha encontrado con que, el actual nivel de madurez tecnolgica y de economa de escala, que han alcanzado en estos servicios, los hace una opcin muy natural para la recuperacin en caso de contingencias o desastres, sobre todo, si se la compara con la clsica accin de construir un Centro de Datos alterno para recuperar los servicios, que es una solucin de que requiere inversiones considerables para su construccin y operacin.

Por esa razn, este estudio, se ha realizado con la idea de sistematizar la informacin disponible y relacionada con los mecanismos de contingencia que ofrezcan los distintos proveedores de la nube y, de esta manera, confirmar los beneficios y bondades que ofrecen estos servicios de contingencia, facilitar su utilizacin, para encontrar el proveedor idneo que atienda las necesidades de recuperacin, para el Centro de Datos de la Carrera de Software.

Conceptos fundamentales

Dado que este estudio es acerca de los mecanismos de contingencia que ofrecen los proveedores de servicio de la nube pblica, encaja en una de las facetas de la Tecnologa de Informacin y Comunicaciones (TIC), que es el que enfrenta el desafo de entregar los servicios, sin interrupciones a los usuarios o, al menos, de mantenerlos disponibles durante la mxima cantidad de tiempo que sea posible.

Trabajar en la optimizacin de la disponibilidad de los servicios, es un imperativo muy desarrollado en las organizaciones y empresas de la poca presente. En las TICs se la encuentra en la redundancia de los componentes que forman parte de los servicios, por ejemplo, servidores con doble fuente de poder, UPSs configuradas con una UPS adicional (se las llama N+1), rutas de enlaces de comunicaciones redundantes, servidores en clster, etc. Esto se hace necesario, ya que, desde que las organizaciones fueron avanzando en el uso de las TICs para optimizar sus operaciones y adquirir ventajas competitivas, el impacto de las interrupciones en los servicios, se hace cada vez mayor e implica inaceptables costos financieros y de imagen ante el mercado.

La evolucin que han seguido todas las medidas y procesos destinados a maximizar la disponibilidad e, incluso, a planificar la recuperacin de los servicios, ha dado lugar, a que estas consideraciones se apliquen a todo el entorno en el que actan las organizaciones, no solamente a las TICs

As, desde hace relativamente poco tiempo, se ha desarrollado la denominada Resiliencia Empresarial, la misma que, a ms de los avances que se han dado con la disponibilidad de las TICs, contempla de manera integral, otras reas. En este apartado, explicaremos los conceptos relacionados con ella. Posteriormente, detallaremos las nociones relacionadas con los Servicios en la Nube.

Gibbs et al, (2022), nos plantean considerar la siguiente definicin de Resiliencia:

Nos referimos a la resiliencia como un proceso dinmico definido por la Estrategia Internacional para la Reduccin de Desastres de las Naciones Unidas (UNISDR) como "la capacidad de un sistema, una comunidad o una sociedad expuesta a peligros para resistir, absorber, acomodarse y recuperarse de los efectos de un peligro de manera oportuna y eficaz, incluso mediante la preservacin y el restablecimiento de sus estructuras y funciones bsicas esenciales" (p. 2).

El siglo XXI, desde sus inicios, se ha caracterizado por ser una era de incertidumbre econmica y geopoltica. En Wolbers, J., Kuipers, S., & Boin, A. (2021) se registran varios incidentes de gran impacto: el ataque a las torres gemelas del 11 de septiembre/2001, el tsunami en el Ocano Indico (2004), el Huracn Katrina (2005), la crisis econmica y financiera de 2008, la erupcin volcnica en Islandia 2010), el terremoto de Japn, en 2011 que provoc daos en la Central Nuclear de Fukushima, los ataques terroristas en diversas partes del mundo, el cambio climtico, la pandemia de COVID-19 (2020-2022) y ms recientemente, la Guerra entre Rusia y Ucrania (Brende & Sternfels, 2022, p. 5) Todos ellos han perturbado o perturban aun, el funcionamiento de las organizaciones que operan en su rea de impacto; en particular los dos ltimos casos, han implicado una afectacin global, en todas partes del planeta. En Aldea, A., Vaicekauskaitė, E., Daneva, M., & Piest, J. P. S. (2021) se establece que, en los das presentes, esto se ha manifestado mediante el impacto a la cadena de suministro de los productos de tecnologa, tales como computadores, telfonos y otros equipos de redes y comunicaciones. (Sanchis & Poler, 2020)

En Sanchis & Poler (2020), se plantea que si a esto, adems se agrega las transformaciones que ha sufrido el mercado., esto es, mercados y clientes ms exigentes, la velocidad con que se desarrollan o evolucionan las tecnologas, entonces se puede apreciar la necesidad, en el afn de sobrevivir y crecer, de desarrollar la resiliencia de manera integral, que cubran todas las reas del entorno de las organizaciones, (p. 502).

Sanchis & Poler, (2020) nos dicen que

El estudio de la resiliencia aplicado al mundo empresarial ha ido creciendo en las ltimas dcadas debido al gran dinamismo del entorno en el que operan las compaas. reas afines a la gestin de la resiliencia como la gestin de riesgos, la continuidad del negocio, la recuperacin ante desastres, no han ido evolucionado a la misma velocidad con la que las empresas precisan para lidiar con las amenazas del entorno y con las situaciones de crisis. Es por ello por lo que nace la gestin de la resiliencia como un nuevo enfoque en el que se definan y desarrollen nuevas herramientas que complementen a los enfoques tradicionales para satisfacer las necesidades actuales y el carcter dinmico del entorno en el que las empresas operan (Sanchis & Poler, 2019a) (p.502)

 

En la Figura 1, vemos algunas de las clases de resiliencia que se han desarrollado conceptualmente y su relacin con la Resiliencia Empresarial (en ingls, Organizational Resilience)

 

Diagrama

Descripcin generada automticamente

Figura 1 - Relaciones entre conceptos de resiliencia y la resiliencia organizacional

Fuente: Adaptada de Ruiz-Martin et al , 2018, p. 12

 

Resiliencia y Sistemas de informacin

La mayora de las organizaciones, dependen de los Sistemas de Informacin, para la realizacin de sus operaciones. En el caso de que hubiera una disrupcin significativa, en los sistemas de informacin, habra un impacto muy alto en sus actividades, ya que muchas de las tareas se tendran que realizar manualmente y/o en papel. Imaginemos al correo en cartas o la contabilidad registrada en libros de papel, por mencionar los casos menos complejos. Por esta razn, cuando se planifican las actividades durante las crisis en las organizaciones, es de la mxima importancia, examinar la continuidad de los servicios clave de los Sistemas de Informacin.

 

Gestin de la continuidad del negocio

Crask, 2021 establece que, el trmino Continuidad del Negocio se usa para describir la capacidad de una organizacin, para continuar o recuperar las operaciones, que despus de un incidente disruptivo (p. 4). El mismo autor plantea que la Resiliencia Organizacional, es un concepto que se usa para describir un enfoque integrado para brindar la continuidad del negocio, junto con aspectos que muchas organizaciones consideraran parte de la Gestin del riesgo operacional

Figura 2 - Marco conceptual para los Sistemas de Informacin

Fuente: Sarkar, Wingreen, & Cragg, 2013

 

Se puede apreciar que, entre los factores internos, se incluyen los Planes de Continuidad del Negocio y los Planes de Recuperacin ante Desastres.

La Gestin de la Continuidad del Negocio, est regulada por una familia de normas, que estn bajo la responsabilidad del Comit Tcnico 292 (Technical Committee, TC 292) de la ISO, que tiene a su cargo toda la normativa que se relaciona con la Seguridad y la Resiliencia:

La realizacin de un Plan de Continuidad del Negocio requiere que se haga lo siguiente:

● identificar los procesos y actividades que se considera prioritarios y crticos para que la organizacin mantenga sus operaciones y pueda entregar sus productos y servicios;

● identificar los recursos que son necesarios para entregar estos procesos y actividades crticos;

● elaborar y mantener todos los planes de continuidad del negocio, gestin de incidentes y gestin de crisis, de modo que la organizacin pueda responder a todos los impactos que se ocasionan luego de una interrupcin o crisis;

● capacitar al personal que deber ejecutar el Plan de continuidad del negocio;

● realizar pruebas peridicas del Plan de Continuidad del Negocio validar la efectividad de los planes de respuesta y recuperacin de la organizacin;

● aplicar un proceso de mejora continua para asegurar que las capacidades de continuidad del negocio permanezcan actualizadas y sean tiles para la organizacin.

 

Diagrama

Descripcin generada automticamente

Figura 3 - Ciclo de Vida de la Gestin de la Continuidad del Negocio

Fuente: Adaptada de Crask, 2021, p. 7

 

1.-Analizar: Es el primer paso. Aqu se realiza el anlisis del impacto en el negocio para identificar los procesos y actividades crticos de la organizacin y determinar las prioridades de recuperacin. Los errores u misiones que se cometan en esta fase crucial podran resultar en la elaboracin de planes de recuperacin incompletos.

2.-Disear: esta se definen las estrategias de recuperacin y la forma en que se obtendrn los recursos que necesitan los procesos y actividades crticos. Por ejemplo, estos recursos pueden ser el personal formado necesario para desempear una funcin concreta, un sistema informtico, datos, un proveedor externo o un edificio especfico.

Las estrategias y soluciones de recuperacin desarrolladas aqu constituyen la base de lo que se documentar en los planes de recuperacin y deben garantizar que todos los procesos y actividades crticas puedan recuperarse en los plazos acordados y con las capacidades esperadas.

3.-Implementar: Los resultados de las dos primeras etapas del ciclo de vida proporcionan gran parte de los detalles que se necesitarn para desarrollar el plan, lo que se har en esta etapa.

4.-Mejorar: Para mejorar el Plan realizado, se incluirn revisiones de la direccin, auditoras, informes posteriores a los incidentes y, se realizar las pruebas del Plan, diseadas para validar la eficacia de este. Cada vez que se identifique una mejora a travs de los procesos implementados en esta etapa garantizan que las disposiciones de la organizacin se actualicen para para reflejar los ltimos aprendizajes y las buenas prcticas.

5.-Incorporar: esta etapa se centra en la formacin del personal para garantizar que son capaces de cumplir eficazmente con sus deberes de continuidad de la actividad de la continuidad de la actividad, pero tambin incluye la concienciacin del personal de la plantilla, en general.

 

Variables de la investigacin

Todo diseo e implementacin de soluciones, relacionada con mecanismos de contingencia, tiene como elementos caractersticos, las necesidades especficas que se tengan en relacin con los tiempos de recuperacin y la cantidad de datos que se considera aceptable que no estn actualizados.

Con ese fin, en forma general, se han definido dos variables que, en su conjunto, van a cubrir las necesidades realistas que tenga cada organizacin particular. Dado que estas variables, son definidas para analizar diferentes escenarios que cubran las necesidades de recuperacin de la organizacin, se las considera.

 

Variables Independientes

La primera variable, es el Objetivo de Tiempo de Recuperacin (Recovery Time Objective, RTO)

La norma ISO 22300 la define como periodo de tiempo tras un incidente en el que se reanuda un producto o servicio o una actividad se reanuda, o se recuperan los recursos (p.23)

Una vez que ocurre la interrupcin de los servicios, por un mal funcionamiento o por un desastre, la organizacin debe trabajar para que los servicios vuelvan a estar disponibles, en el menor tiempo que sea posible. A este fin, con RTO se define el tiempo mximo de tolerancia en que la organizacin est dispuesta a esperar, hasta que el servicio se restablezca, sin que se cause un dao a su imagen o reputacin comercial, operativa o financiera.

Hay casos en los que las interrupciones pueden ocurrir por varios das, sin que haya ningn tipo de consecuencias, y otros casos en los que una interrupcin de pocos segundos puede causar reclamos o inconformidad de los clientes. Imaginemos, una interrupcin de Netflix o de Google de pocos segundos o minutos. Con seguridad, ocasionara malestar y/o reclamo de los clientes o usuarios.

La determinacin de RTO, se debe realizar para todos y cada uno de los servicios que estn activos en produccin. Esto se lo realiza en la fase de inicial del Plan de Continuidad de Negocio, que se denomina Anlisis de Impacto en el Negocio (en ingls, Business Impact Analysis, BIA).

La segunda variable, es el Objetivo de Punto de Recuperacin (Recovery Point Objective, RPO)

La norma ISO 22300 la define como punto en el que se restablece la informacin utilizada por una actividad para que sta pueda funcionar en la reanudacin (p.23)

La actividad de respaldo de la informacin es una prctica muy madura y establecida en los Centros de Datos. Se la realiza con la finalidad de preservar los datos vigentes en un momento especfico del tiempo, y brinda la posibilidad de que pueda ser utilizada en caso de que se produzca algn inconveniente que afecte la disponibilidad de los datos.

Por lo general, los respaldos se realizan con una frecuencia previamente establecida; por ejemplo, ms de una vez en el da, con respaldos completos o parciales (diferenciales o incrementales).

Esto nos conduce a la situacin de que, una vez que se produzca la interrupcin del servicio, o el desastre, solamente contaremos con los datos que constan en el ltimo respaldo obtenido. Los datos que se ingresaron, que se modificaron o eliminaron, despus de ese ltimo respaldo, por lo tanto, se perdern,

El Objetivo de Punto de Recuperacin, por lo anterior, nos indica cual es la cantidad de datos que la organizacin est dispuesta a tolerar que se pierdan, ante la ocurrencia de una contingencia.

Los datos de los servicios ms crticos se deben respaldar con mayor frecuencia que aquellos que son de importancia menor. Los servicios con RPO cercano a cero, requieren que los respaldos se realicen mediante el esquema de conmutacin por error o de replicacin constante. En sentido opuesto, los respaldos menos frecuentes, conllevan la definicin de un RPO ms grande.

La siguiente figura, nos ayuda a relacionar estas dos variables independientes, RTO y RPO, en relacin con el momento en que se produce la interrupcin no planificada (o desastre) del servicio.

 

 

 

Figura 4 - Relacin de RPO y RTO con el inicio del desastre.

Fuente: Revista Datacenter, 2013

 

Aqu, se puede apreciar que, los respaldos solamente se realizan 1 vez por semana (RPO) y que el RTO es de 1 da, esto es, los servicios sern restaurados hasta 1 da despus de que ocurri el desastre.

Variables Dependientes

Una vez que se han definido el RTO y el RPO, para atender las necesidades de recuperacin de la Organizacin, se deben implementar las soluciones que permitirn cumplir con los valores definidos.

 

Figura 5 - El Costo de Implementacin del Mecanismo de Contingencia Variable dependiente

Fuente: Arnal Zaragoz (2020)

 

En consideracin de que, generalmente se necesita recuperar la infraestructura, el costo de la recuperacin crecer exponencialmente, cuando se trata de atender un requerimiento de RTO cercano a cero. Las inversiones y gastos por efectuar son considerables. Cuando se cuenta con un RTO mayor, la inversin y gastos a considerar, son menores.

Este razonamiento, es similar para el caso de tener que disear una solucin que permita cumplir con el RPO definido

Por lo expuesto, resulta evidente que es vlido considerar al COSTO de implementacin de las medidas de recuperacin ante las contingencias (o Desastres) como la variable dependiente de este estudio. El Costo, depende de las definiciones que se hayan hecho de RTO y RPO.

Como se puede apreciar en la Figura 5, el punto de equilibrio que se genera en la interseccin de las 2 curvas nos entrega el monto de inversin ptima y el valor de RPO y RTO que se podra generar con esa inversin. Desde luego, la definicin de RPO y RTO inicial, debe ser del objetivo prioritario, porque se definen considerando la magnitud del impacto financiero y la afectacin a la imagen y reputacin de la empresa.

 

Resultados

Este estudio nos ha permitido conocer los detalles ms importantes que conforman los servicios de Recuperacin ante Desastres (DRaaS), que ofrecen los tres principales proveedores de la nube con cobertura mundial y que operan en el Ecuador

En forma general, la investigacin realizada, brinda una slida evidencia de que ahora, con la disponibilidad de los servicios de contingencia en la nube que se han revisado, prcticamente todas las empresas, de cualquier nivel (microempresa, pequea, mediana y grande), estn en condiciones de mejorar la resiliencia de sus negocios, implementando los planes de recuperacin de los servicios y la infraestructura tecnolgica que le permita mantener activa su operacin, a pesar de que se presenten incidentes que tengan un impacto considerable en la disponibilidad de sus servicios de Tecnologa de la Informacin y Comunicaciones.

Este resultado se sustenta en que, es posible comenzar con una cantidad mnima de servicios tecnolgicos o equipos servidores (podran ser tan solo un servicio, con un nico equipo servidor), elegidos de acuerdo a las necesidades o conveniencias de la empresa que los usa- Esto, permite ganar conocimiento y experiencia en las actividades de planificacin para recuperarse ante desastres, en la prueba de esos planes y, en el caso de que se ocurra alguna interrupcin, en la ejecucin de esos planes. Todo esto, con una prdida de datos (RPO) muy pequea (que puede reducirse a segundos), con tiempos de recuperacin (RTO) del orden de minutos y sin necesidad de tener que superar curvas de aprendizaje largas, complejas y costosas.

Posteriormente, se puede ir ampliando, de una forma muy sencilla, la cobertura de los servicios tecnolgicos a proteger con estos mecanismos de contingencia, hasta llegar a cubrir la totalidad de las necesidades prioritarias de recuperacin que tenga la empresa. Asimismo, en cada ocasin en que se incrementen o se incluyan ms servicios tecnolgicos en el proceso de recuperacin, tambin se deben probar, con una frecuencia semestral, el correcto funcionamiento de la recuperacin que se ha planificado, para la totalidad de los servicios incluidos. Ahora, a diferencia de lo que ocurra hace poco tiempo atrs, estas pruebas se pueden realizar, sin que se tenga que interrumpir ninguna de las operaciones de la empresa.

Otro factor que impulsa la adopcin de los servicios de contingencia o recuperacin en la nube, es que antes de la disponibilidad de estos servicios en la nube, se tena que seleccionar, disear o construir, un centro de datos alterno, para que pueda ser usado, en el momento en que se presente una afectacin a la disponibilidad de los servicios, Obviamente, en muchas ocasiones, esto requera que las empresas, realicen inversiones de montos considerables, tanto para la construccin, como para el equipamiento del centro alterno. De aqu, se derivaban otras necesidades, tales como instalar y configurar los equipos del Centro de Datos alterno; luego, cuando se producan cambios en la infraestructura del Centro de Datos principal, tambin se deban actualizar los componentes instalados en el Centro de Datos alterno. Otro detalle que haba que tener consideracin, es la frecuencia con que se actualicen los datos en los equipos alternos. Por lo general, en la gran mayora de los casos, las pruebas de los planes de recuperacin obligaban a interrumpir las operaciones de la empresa

En el caso de que se empleen los mecanismos de contingencia disponibles en las empresas en el mercado ecuatoriano, los precios a pagar por cada equipo que deba recuperarse o por la infraestructura o los servicios en la nube, que deban utilizarse, estn en el orden de magnitud de unos pocos cientos de dlares por mes, por cada equipo, los cuales en el modelo de precios que aplican los proveedores en la nube, solamente se debern pagar, cuando sean usados. Esto es un contraste significativo con la situacin vigente en la poca anterior a la disponibilidad de la informtica en la nube, en que se tenan que invertir varias decenas o centenares de miles de dlares que deban agregarse a los gastos recurrentes que estaban relacionados con el pago por el mantenimiento de los equipos, energa elctrica, aire acondicionado, videovigilancia, etc. del Centro de Datos alterno.

Por otro lado, los tres proveedores investigados (AWS, y AZURE y GOOGLE) cuentan con una arquitectura estable y de utilizacin sencilla. Cada uno tiene su enfoque particular, para replicar los datos en su infraestructura de la nube y para la ejecucin de los procesos de conmutacin por error (Failover) y de conmutacin por recuperacin (Failback).

Con la encuesta realizada entre los estudiantes de la materia de Seguridad de la informacin, nos encontramos que entre ellos existe conciencia acerca del valor que tienen las actividades de prevencin de la prdida de informacin y planificacin de la recuperacin ante desastres. Sin embargo, en su gran mayora (cerca del 80%), admiten no poseer los conocimientos necesarios para realizar estas actividades, por lo que se debe ahondar en la preparacin que deben adquirir en esta rea. Un hallazgo de estas respuestas, que se considera interesante es que, hay un pequeo porcentaje (alrededor del 20%) de entre esos estudiantes encuestados, que afirma ser conocedor (incluso a nivel experto, cerca del 4%)) de estos servicios DRaaS, lo cual debe ser considerado cuando se estime que es necesario mejorar el nivel de conocimientos de los dems estudiantes.

Finalmente, la entrevista realizada, nos permiti conocer los servicios que actualmente estn listos para ser entregados a la comunidad de estudiantes, profesores y personal administrativo de la Carrera de Software y los requerimientos de RPO y RTO para esos servicios

 

Propuesta

Se revisa la informacin de los servicios DRaaS ofrecidos por los proveedores AWS (Amazon Web Services), Microsoft Azure y Google Cloud Platform).

Los siguientes son diagramas representativos de las Arquitecturas de estos servicios

 

AWS

Servicio DRaaS. AWS Elastic Disaster Recovery

Diagrama, Esquemtico

Descripcin generada automticamente

Figura 6 Arquitectura AWS Elastic Disaster Recovery

Fuente: https://docs.aws.amazon.com/drs/latest/userguide/Network-diagrams.html

Microsoft AZURE

Servicio DRaaS. Azure Site Recovery (ASR)

Diagrama

Descripcin generada automticamente

Figura 7 Arquitectura Azure Site Recovery

Fuente:https://docs.microsoft.com/es-es/azure/site-recovery/physical-azure-architecture

 

Google Cloud Platform

Servicio DRaaS. Actifio GO

Diagrama, Escala de tiempo

Descripcin generada automticamente

Figura 6 Arquitectura Actifio GO

Fuente;https://docs.actifio.com/Actifio-GO/PDFs/Introducing.pdf

 

En este estudio, tambin se incluy la realizacin de una encuesta a los estudiantes que estaban registrados en la materia Seguridad Informtica y una entrevista al responsable de la Gestin del Centro de Datos de la Carrera de Software

Conclusiones

  • Las soluciones DRaaS que ofrecen los tres proveedores, incluyen caractersticas tecnolgicas y ventajas financieras y operativas que permiten superar las objeciones que, en nuestra regin, siempre han enfrentado las implementaciones de los Planes de Recuperacin ante Desastres. Se evita la necesidad de realizar las grandes inversiones y gastos que antes era necesario realizar, ya que se deba emplear un Centro de Datos Alterno, con duplicacin de equipos y que demandaban grandes esfuerzos para mantener la sincronizacin de las configuraciones y los datos.
  • Desde el punto de vista operativo, los servicios en la nube presentan la ventaja de que el RPO se puede reducir a segundos y el RTO a minutos.
  • Otra ventaja, es que, una vez que ya se cuentan con los primeros servidores y servicios configurados en el Servicio ofrecido por el proveedor de la nube, agregar otros servidores o servicios adicionales, es relativamente sencillo, Adems, las pruebas de aseguramiento del buen funcionamiento de las recuperaciones configuradas o del Plan de Recuperacin ante Desastres, se pueden realizar sin necesidad de interrumpir las operaciones de la empresa.
  • Es importante destacar que estos tres proveedores cuentan con soluciones tcnicamente diferentes entre s, para atender la misma necesidad y que cada uno ofrece una arquitectura distinta. Microsoft ofrece una solucin propia, que est disponible desde el ao 2014, en tanto que Amazon y Google, ofrecen soluciones que fueron adquiridas a otras empresas. Este detalle que se ha mencionado, son hechos, que no se estiman que sean ventaja o desventaja relativa en la materia de este estudio, salvo quiz, la mayor experiencia y conocimiento interno que existe en Microsoft acerca de su servicio Azure Site Recovery
  • En forma general, las tres soluciones cuentan con caractersticas funcionales .que se pueden considerar muy similares. En el proceso de la seleccin de la solucin, es muy importante distinguir si el sistema operativo de la maquina original, esta soportada en todas y cada una de las soluciones DRaaS que se estn examinando. Tambin se deben identificar los eventuales requerimientos de servidores adicionales que tengan esas soluciones, ya que ellos podran incrementar el costo de la solucin y hacer ms compleja su operacin.
  • Se realiz una prueba de concepto, empleando el Servicio Azure Site Recovery para proteger ante desastres, al Servidor de Active Directory. Esta prueba reviso los mecanismos de replicacin de los datos de los servidores y de conmutacin por error (Failover). La documentacin de Microsoft Azure Site Recovery, indica que, para los servidores fsicos (como el de Active Directory del Centro de Datos), no est soportada la conmutacin por recuperacin (Failback), hacia el servidor fsico. Esta conmutacin por recuperacin, si se puede realizar, pero a una mquina virtual VMware. Esto conlleva la conclusin de que, la realizacin de las pruebas de concepto de todas las soluciones a ser examinadas sea obligatoria, a fin de evitar resultados inesperados o tomar decisiones inconvenientes.
  • Si no se realizan cambios en la infraestructura de los servidore de este Centro de Datos, no es posible concluir de manera objetiva, con un pronunciamiento acerca de cul de los tres proveedores es el ms conveniente para atender las necesidades de Recuperacin de Servicios de esta unidad de la Carrera de Software.
  • Si se realizan cambios (por ejemplo, que los servidores en funcionamiento sean virtuales con Hyper-V) es de esperarse que podamos contar con Azure Site Recovery como una solucin aceptable para los objetivos de servicio de este Centro de Datos.
  • Actualmente, la Universidad de Guayaquil, tiene un convenio con Microsoft para usar varios de los productos de la Plataforma Office 365 y que incluye el acceso al Portal de Azure, para toda la comunidad de nuestra Alma Mater. Con Azure se incluye el programa comercial dirigido al sector acadmico, denominado Microsoft Azure Dev Tools for Teaching el mismo que permite a los estudiantes y profesores, el uso de una serie de herramientas, programas y servicios, sin costo adicional

 

Recomendaciones

Luego de la realizacin de este estudio y de la prueba de concepto solicitada, es posible elaborar las siguientes recomendaciones:

  • La seleccin del producto DRaaS ms conveniente, debe incluir la revisin de las operaciones de configuracin del producto para la replicacin de los datos, la conmutacin por error (Failover) y la conmutacin por recuperacin (Failback), ya que eso permitir establecer las necesidades de otros equipos (servidores fsicos o virtuales, almacenamiento, procesadores, memoria), software, redes, comunicaciones, seguridades. Adicionalmente, podremos conocer si es que las operaciones Failover y Failback, cumplen con las necesidades de servicio que tenga la empresa.
  • Realizar una prueba de concepto, para asegurarse de que, las funciones ofrecidas, cumplen con las necesidades de respaldo y recuperacin de los servicios.
  • Realizar la implementacin de un Plan de Recuperacin ante Desastres, con la cantidad mnima de servicios que sea posible empezar, a fin de que se cumpla exitosamente con la curva de aprendizaje respectiva y se identifiquen los detalles de las operaciones del negocio, de los procesos tcnicos y administrativos que estn relacionados con estas medidas que incrementan la resiliencia. Luego, con la experiencia adquirida, se pueden incluir los dems servicios ofrecidos, en la secuencia que establezca el anlisis de riesgos que se haya realizado.
  • Cuando haya mayor conocimiento y experiencia en esta materia, buscar la reduccin de los RTO comprometidos, aplicando la mayor automatizacin de los procesos de recuperacin que sea posible,
  • Realizar, de manera planificada, la realizacin de las pruebas de los planes de recuperacin, con la periodicidad que permita asegurar que los planes si funcionan correctamente y que el personal conserva las destrezas para actuar cuando llegue el momento de emplear los recursos de recuperacin definidos e implementados.
  • Incorporar indicadores de Disponibilidad en el control de las actividades del Centro de Datos, que permitan ver la evolucin que estn teniendo los servicios de tecnologa que est entregando.
  • Hacer el mayor esfuerzo posible, para que la implementacin de los servicios tecnolgicos, en el Centro de Datos de la carrera de Software, se realice empleando la tecnologa de la virtualizacin, ya que ellos cuentan con servicios de recuperacin mucho ms flexibles y eficientes, que los que se ofrecen a los servidores fsicos.

 

Referencias

1.      Aldea, A., Vaicekauskaitė, E., Daneva, M., & Piest, J. (2021). Enterprise Architecture Resilience by Design: A Method and Case Study Demonstration. 2021 IEEE 25th International Enterprise Distributed Object Computing Workshop (EDOCW) (pgs. 147-156). Gold Coast, Australia: IEEE. doi:10.1109/EDOCW52865.2021.00044

2.      Arnal Zaragoz, D. (25 de 09 de 2020). Linkedin. Recuperado el 26 de Julio de 2022, de Tu copia de seguridad protege el negocio?: https://es.linkedin.com/pulse/tu-copia-de-seguridad-protege-el-negocio-daniel-arnal-zaragoz%C3%A1

3.      AXELOS Limited. (2019). ITIL Foundation: ITIL 4 edition. (Primera ed.). London, England: Norwich, TSO (The Stationery Office). Recuperado el 26 de 07 de 2022

4.      Brende, B., & Sternfels, B. (20 de Mayo de 2022). https://www.mckinsey.com/. (W. E. Forum, Ed.) Recuperado el 10 de Julio de 2022, de https://www.weforum.org/whitepapers/resilience-for-sustainable-inclusive-growth/: https://www.mckinsey.com/~/media/mckinsey/business%20functions/risk/our%20insights/resilience%20for%20sustainable%20inclusive%20growth/resilience-for-sustainable-inclusive-growth_final.pdf?shouldIndex=false

5.      Crask, J. (2021). Business Continuity Management: A Practical Guide to Organizational Resilience and ISO 22301 1st Edicin (Primera ed.). London, United Kingdom: Kogan Page. Recuperado el 13 de 07 de 2022

6.      Gibbs, L., Jehangir, H., Leung Kwong, E. J., & Little, A. (24 de Junio de 2022). Universities and multiple disaster scenarios: A transformative framework for disaster resilient universities. International Journal of Disaster Risk Reduction, 78(103132), 9. doi:https://doi.org/10.1016/j.ijdrr.2022.103132

7.      International Organization for Standardization. (02 de 2021). Security and resilience Vocabulary. ISO 22300:2021, Tercera, 53. Geneva, Switzerland. Recuperado el 24 de Julio de 2022, de Online Browsing Platform (OBP): https://www.iso.org/obp/ui/#iso:std:iso:22300:ed-3:v1:en

8.      International Organization for Standardization;. (02 de 2022). Information security, cybersecurity and privacy protection Information security controls. ISO/IEC 27002:2022, Tercera, 152. Geneva, Switzerland. Recuperado el 25 de 07 de 2022, de https://www.iso.org/obp/ui/#iso:std:iso-iec:27002:ed-3:v2:en

9.      Revista Datacenter. (12 de 12 de 2013). Revista Datacenter. Recuperado el 25 de Julio de 2022, de RTO vs RPO?: https://revistadatacenter.wordpress.com/2013/12/12/cual-es-la-diferencia-entre-el-rto-y-rpo/

10.  Ruiz-Martin, C., Lpez-Paredes, A., & Wainer, G. (31 de 01 de 2018). What we know and do not know about organizational resilience. (Prof. Eduardo Vicns-Salort, Ed.) International Journal of Production Management and Engineering, 6(1), 11-28. doi:10.4995/ijpme.2018.7898

11.  Sanchis, R., & Poler, R. (12 de 2020). Resiliencia Empresarial en poca de Pandemia. Boletn de Estudios Econmicos, 75(231), 501-520. Recuperado el 11 de Julio de 2022, de https://riunet.upv.es/handle/10251/165594

12.  Sarkar, A., Wingreen, S. C., & Cragg, P. (2013). Organisational IS Resilience: a pilot study using Q-methodology. ACIS 2013: Information systems: Transforming the Future: Proceedings of the 24th Australasian (pgs. 1-11). Melbourne, Australia: RMIT University. Recuperado el 10 de Julio de 2022, de https://aisel.aisnet.org/acis2013/134

13.  Terinte, T. (26 de 06 de 2018). Effects of Cloud Computing on Enterprises. Master's thesis, Masaryk University, Faculty of Economics and Administration, Brno. Recuperado el 27 de Julio de 2022, de https://is.muni.cz/th/rc7xo/?predmet=674645;lang=en;id=234077

14.  Wolbers, J., Kuipers, S., & Boin, A. (2021). A systematic review of 20 years of crisis and disaster research: Trends and progress. Risk, Hazards, & Crisis in Public Policy (RHCPP), 12(4), 374392. doi:10.1002/rhc3.12244

 

 

 

 

 

 

 

2023 por el autor. Este artculo es de acceso abierto y distribuido segn los trminos y condiciones de la licencia Creative Commons Atribucin-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

(https://creativecommons.org/licenses/by-nc-sa/4.0/).

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/