Ang Chaos Monkey at Supply Chain ng Netflix

Kamakailan ay nakipag-usap ako kay Carlos Crespo, Chief Operating Officer ng Zara parent company na Inditex, kung saan binanggit niya ang isang software tool na ginawa ng Netflix mahigit isang dekada na ang nakararaan upang ma-institutionalize ang system resilience. Ang pangalan ay kaakit-akit, at para sa mga pinuno ng supply chain na nagsisikap na muling likhain ang kanilang mga network ng supply para sa magulong panahon, ito ay hindi mapaglabanan. At gayon pa man, isang GoogleGOOG
eksaktong nagbunga ang paghahanap para sa "supply chain chaos monkey". isang citation, mula 2012.

Bakit hindi natin inilalapat ang ideyang ito sa supply chain resilience?

Ano ang Chaos Monkey?

Ito ay isang tool ng software, at mas malawak, isang prinsipyo sa engineering na random na nagsasara ng mga bahagi ng isang kumplikadong sistema na pumipilit sa mga operator na bumawi nang live. Parang isang surpresang fire drill, ngunit araw-araw, at sa mga random na paraan at lugar. Ang ideya ay ang pagiging mahusay sa paglutas ng mga problema sa system nang mabilis ay isang proseso ng pag-aaral na dapat makinabang mula sa isang tumataas na curve ng pag-aaral.

Ang backstory ay tungkol sa kung paano pinalaki ng Netflix ang streaming na negosyo nito sa Amazon Web Services habang lumilipat mula sa pagpapadala ng mga DVD patungo sa doorsteps ng customer. Sa unang pamumula, ito ay isang lohikal na diskarte sa pagpaplano ng redundancy ng system, tulad ng kung ano ang iyong aasahan mula sa NASA, ngunit sa pagsasagawa ay sinasamantala nito ang isang kultural na pamantayan ng Netflix na nagpapahintulot sa mga indibidwal na nag-aambag na lutasin ang kanilang sariling mga problema. Tulad ng nakatala sa "Chaos Engineering” isang 2020 na aklat nina Casey Rosenthal at Nora Jones na nagpasimuno sa pagsasanay sa Netflix, ito ay bumaba sa limang prinsipyo:

  • Bumuo ng hypothesis sa paligid ng steady-state na pag-uugali
  • Pag-iba-iba ang mga totoong kaganapan sa mundo
  • Magpatakbo ng mga eksperimento sa produksyon
  • I-automate ang mga eksperimento upang patuloy na tumakbo
  • I-minimize ang blast radius

Ang timpla ng kultura at proseso sa Netflix ay mahalaga dahil pinalalakas at ginamit nito ang isang open-source na diskarte sa paglutas ng problema, habang sistematikong pinihit ang gulong ng mga random na shutdown na nagpapabilis sa pag-aaral sa buong pinalawig na koponan.

Supply Chain Resilience at Chaos Engineering

Digital na pagbabagong-anyo sa supply chain ay naging mainit ngayong taon dahil nakakatulong ito sa mga supply chain na suportahan ang mga bagong modelo ng negosyo at humimok patungo sa napapanatiling operasyon (tingnan ang pag-aaral ng BCG X), ngunit dahil din sa nangangako ito ng "katatagan". Sa kasamaang-palad, ang mga praktikal na aplikasyon ng digital transformation para sa supply chain resilience sa pangkalahatan ay bumabagsak pa rin sa mga platform para sa mas mahusay na "visibility", na sinusuportahan ng isang grupo ng mga tradisyonal na taktika tulad ng inventory buffering at dual sourcing. Ang batayan ng diskarteng ito ay isa pang layer ng analytical na gawain oras-to-recover ni David Simchi-Levi sa MIT, at isang wave ng simulation gamit ang digital twins. Maganda ang lahat, ngunit ang kulang ay anumang sistematikong paraan ng pag-eeksperimento sa tunay na pagkabigo sa supply chain upang malaman kung paano pinakamahusay na makabawi sa pagsasanay.

Paglalapat ng Chaos Monkey sa Supply Chain

Ang mga doktor ay kumukuha ng Hippocratic Oath bago kami buksan, kabilang ang sikat na "unang gumawa ng walang pinsala." Hindi isang masamang ideya para sa sinumang nag-aaplay ng mga prinsipyo ng Chaos Monkey sa mga supply chain, na nangangailangan ng random na pagsasara ng isang tunay na makina sa isang lugar. This is non-trivial, and as far as I know, hindi pa nangyayari kahit saan.

  • Sinasabi ng unang prinsipyong binanggit sa itaas na tumuon sa mga output ng system kaysa sa mga panloob na katangian. I-verify na gumagana ang system sa halip na subukang maunawaan kung bakit ito gumagana.
  • Sinasabi ng pangalawang prinsipyo na sirain ang iba't ibang bagay sa makatotohanang paraan. Hindi na kailangang gayahin ang pandaigdigang digmaang thermonuclear, isara lang ang switch o mawala ang isang order at alamin kung ano ang pinakamahusay na solusyon.
  • Ang ikatlong prinsipyo ay nagsasabi na ang pinakamagandang lugar upang matuto ay sa produksyon. Ang pag-aaral sa pamamagitan ng paggawa ay mas mahusay kaysa sa pag-aaral sa pamamagitan ng simulation - ibig sabihin, ang mga digital twin ay mahusay, ngunit maaaring hindi sila sapat upang bumuo ng isang kultura ng katatagan.
  • Ang pang-apat na prinsipyo ay nagpapatibay sa mga prinsipyo ng chaos monkey dahil nagbibigay-daan ito sa pag-scale ng proseso ng pag-eeksperimento, na magdadala sa iyo sa mas matarik na curve ng pag-aaral. Gumamit ng data science sa paglaban sa sunog.
  • Panghuli, bawasan ang blast radius. Nangangahulugan ito na "huwag gumawa ng masama" at isinasalin ito sa isang uri ng buffering (imbentaryo, oras ng pangunguna, pinabilis na barko) upang protektahan ang mga customer mula sa pakiramdam ng iyong eksperimento. Matutong pamahalaan ang mga kinokontrol na pagsabog.

Ang isa ay maaaring magtaltalan na ang nakalipas na tatlong taon ng Covid, digmaan, kaguluhan sa paggawa, at ang kaguluhan sa ekonomiya ay naging isang malaking kaguluhan na unggoy na dry run para sa lahat. Ang aral ng Netflix ay ang ganitong uri ng krisis ay hindi lamang isang bagay na dapat planuhin, ngunit isang bagay na dapat pag-aralan bilang isang permanenteng katotohanan ng buhay.

Maaaring hindi na matatapos ang perpektong unos, kaya siguro dapat matuto tayong mamuhay kasama nito.

Pinagmulan: https://www.forbes.com/sites/kevinomarah/2022/12/22/netflix-chaos-monkey-and-supply-chain/