შენახვის მოთხოვნები AI, ML და ანალიტიკისთვის 2022 წელს

შენახვის მოთხოვნები AI, ML და ანალიტიკისთვის 2022 წელს


ხელოვნური ინტელექტი (AI) და მანქანათმცოდნეობა (ML) გვპირდებიან გარდაქმნის ეკონომიკისა და საზოგადოების მთელ სფეროებს, თუ ისინი ამას უკვე არ აკეთებენ. უმართავი მანქანებიდან მომხმარებელთა მომსახურების „ბოტებამდე“, AI და ML-ზე დაფუძნებული სისტემები ბიზნესის ავტომატიზაციის მომდევნო ტალღას მართავენ.

ისინი ასევე არიან მონაცემთა მასიური მომხმარებლები. დაახლოებით ათწლეულის შედარებით სტაბილური ზრდის შემდეგ, AI და ML მოდელების მიერ გამოყენებული მონაცემები ექსპონენტურად გაიზარდა, რადგან მეცნიერები და ინჟინრები ცდილობენ გააუმჯობესონ თავიანთი სისტემების სიზუსტე. ეს აყენებს ახალ და ზოგჯერ ექსტრემალურ მოთხოვნებს IT სისტემებზე, შენახვის ჩათვლით.

AI, ML და ანალიტიკა მოითხოვს დიდი მოცულობის მონაცემებს, ძირითადად არასტრუქტურირებულ ფორმატებში. „ყველა ეს გარემო იყენებს არასტრუქტურირებული მონაცემების დიდ რაოდენობას“, ამბობს პატრიკ სმიტი, ევროპის, ახლო აღმოსავლეთისა და აფრიკის (EMEA) საველე CTO მიმწოდებელ Pure Storage-ში. ”ეს არის არასტრუქტურირებული მონაცემების სამყარო და არა ბლოკები ან მონაცემთა ბაზები.”

AI და ML მოდელების ტრენინგი განსაკუთრებით იყენებს უფრო დიდ მონაცემთა ნაკრებებს უფრო ზუსტი პროგნოზებისთვის. როგორც Vibin Vijay, OCF-ის AI და ML-ის სპეციალისტი აღნიშნავს, ერთ სერვერზე კონცეფციის დამადასტურებელი ძირითადი მოდელი შეიძლება იყოს 80% ზუსტი.

სერვერების კლასტერზე სწავლებით, ეს გადავა 98% ან თუნდაც 99.99% სიზუსტეზე. მაგრამ ეს საკუთარ მოთხოვნებს აყენებს IT ინფრასტრუქტურაზე. თითქმის ყველა დეველოპერი მუშაობს იმის საფუძველზე, რომ მეტი მონაცემები უკეთესია, განსაკუთრებით ტრენინგის ფაზაში. „ეს იწვევს მონაცემთა უზარმაზარ კოლექციებს, სულ მცირე, პეტაბაიტებს, რომლებიც ორგანიზაცია იძულებულია მართოს“, – ამბობს სკოტ ბეიკერი, IBM Storage-ის CMO.

შენახვის სისტემები შეიძლება გახდეს ბოსტნე. უახლესი მოწინავე ანალიტიკური აპლიკაციები ინტენსიურად იყენებენ CPU-ებს და განსაკუთრებით GPU კლასტერებს, რომლებიც დაკავშირებულია ისეთი ტექნოლოგიით, როგორიცაა Nvidia InfiniBand. დეველოპერები კი ეძებენ მეხსიერების დაკავშირებას პირდაპირ GPU-ებთან.

„AI და ML სამუშაო დატვირთვებში, სწავლის ფაზაში, როგორც წესი, გამოიყენება მძლავრი GPU-ები, რომლებიც ძვირი და დიდი მოთხოვნაა“, – ამბობს ბრედ კინგი, თანადამფუძნებელი და მიმწოდებელი Scality-ის დარგის CTO. „მათ შეუძლიათ დიდი მოცულობის მონაცემების დაღეჭვა და ხშირად შეუძლიათ უსაქმურად დაელოდონ მეტ მონაცემს შენახვის შეზღუდვების გამო.

„მონაცემთა მოცულობა ზოგადად დიდია. დიდი ფარდობითი ტერმინია, რა თქმა უნდა, მაგრამ ზოგადად, მონაცემებიდან გამოსაყენებელი შეხედულებების ამოსაღებად, რაც უფრო აქტუალურია ხელმისაწვდომი მონაცემები, მით უკეთესი იქნება ინფორმაცია.

გამოწვევა არის მაღალი ხარისხის შენახვის უზრუნველყოფა მასშტაბით და ბიუჯეტის ფარგლებში. როგორც OCF-ის Vijay აღნიშნავს, დიზაინერებს შეიძლება სურდეთ ყველა საცავი მაღალი ხარისხის 0 დონის ფლეშზე, მაგრამ ეს იშვიათად, თუ ოდესმე, პრაქტიკულია. და იმის გამო, თუ როგორ მუშაობს AI და ML, განსაკუთრებით ტრენინგის ფაზებზე, ეს შეიძლება არ იყოს საჭირო.

ამის ნაცვლად, ორგანიზაციები ავრცელებენ საფეხურს საცავში, ანაწილებენ მონაცემებს ზევით და ქვევით საფეხურებში, ფლეშიდან ღრუბელამდე და ლენტითაც კი. „თქვენ ეძებთ სწორ მონაცემებს, სწორ ადგილას, სწორ ფასად“, ამბობს ვიჯაი.

ფირმებმა ასევე უნდა იფიქრონ მონაცემთა შენახვაზე. მონაცემთა მეცნიერებს არ შეუძლიათ წინასწარ განსაზღვრონ, თუ რომელი ინფორმაციაა საჭირო მომავალი მოდელებისთვის და ანალიტიკა უმჯობესდება ისტორიულ მონაცემებზე წვდომით. ეკონომიურად ეფექტური, გრძელვადიანი მონაცემების არქივირება მნიშვნელოვანია.

რა სახის საცავი არის საუკეთესო?

არ არსებობს ერთი ვარიანტი, რომელიც აკმაყოფილებს AI, ML და ანალიტიკის შენახვის ყველა საჭიროებას. ჩვეულებრივი იდეა, რომ ანალიტიკა არის მაღალი წარმადობის, მაღალი I/O დატვირთვა, რომელიც საუკეთესოდ შეეფერება შენახვის დაბლოკვას, უნდა იყოს დაბალანსებული მონაცემთა მოცულობის, მონაცემთა ტიპების, გადაწყვეტილების მიღების სიჩქარის და, რა თქმა უნდა, ბიუჯეტის მიმართ. AI სასწავლო გარემო განსხვავებულ მოთხოვნებს უყენებს ვებ დაფუძნებულ რეკომენდაციების ძრავას, რომელიც მუშაობს რეალურ დროში.

„ბლოკის შენახვა ტრადიციულად კარგად შეეფერება მაღალი გამტარუნარიანობის და მაღალი I/O დატვირთვისთვის, სადაც მნიშვნელოვანია დაბალი შეყოვნება“, – ამბობს ტომ კრისტენსენი, გლობალური ტექნოლოგიების მრჩეველი Hitachi Vantara-ში. „თუმცა, მონაცემთა ანალიტიკის თანამედროვე დატვირთვის მოახლოებასთან ერთად, მათ შორის AI, ML და მონაცემთა ტბებიც კი, აღმოჩნდა, რომ ბლოკზე დაფუძნებულ ტრადიციულ პლატფორმებს არ აქვთ უნარი დააკმაყოფილონ მასშტაბური მოთხოვნა, რომელსაც ქმნის ამ პლატფორმების გამოთვლითი მხარე. როგორც ასეთი, ფაილებსა და ობიექტებზე დაფუძნებული მიდგომა უნდა იქნას მიღებული ამ თანამედროვე დატვირთვის მხარდასაჭერად. ”

ბლოკირებადი საცავი

ბლოკზე დაფუძნებული სისტემები ინარჩუნებენ უპირატესობას ნედლეულ შესრულებაში და მხარს უჭერენ მონაცემთა ცენტრალიზაციას და მოწინავე ფუნქციებს. IBM-ის სკოტ ბეიკერის თქმით, ბლოკის მეხსიერების მასივები მხარს უჭერენ აპლიკაციის პროგრამირების ინტერფეისებს (API), რომლებიც AI და ML დეველოპერებს შეუძლიათ გამოიყენონ განმეორებითი ოპერაციების გასაუმჯობესებლად ან თუნდაც მასივისთვის შენახვის სპეციფიკური დამუშავების განტვირთვისთვის. არასწორი იქნებოდა ბლოკის შენახვის სრულად გამორიცხვა, განსაკუთრებით იქ, სადაც საჭიროა მაღალი IOPS და დაბალი შეყოვნება.

ამის საპირისპიროდ, საჭიროა სპეციალური საცავის ქსელების აშენება ბლოკის შესანახად – ჩვეულებრივ ბოჭკოვანი არხი – და ოვერჰედიები, რომლებიც მოყვება ბლოკის შენახვას, რომელიც ეყრდნობა მასივის გარეშე (ჰოსტზე დაფუძნებულ) ფაილურ სისტემას. როგორც ბეიკერი აღნიშნავს, ეს კიდევ უფრო რთული ხდება, თუ AI სისტემა ერთზე მეტ OS-ს იყენებს.

ფაილი და ობიექტი

შედეგად, სისტემის არქიტექტორები მხარს უჭერენ ფაილების ან ობიექტებზე დაფუძნებულ შენახვას AI და ML-სთვის. ობიექტების საცავი აგებულია დიდი, პეტაბაიტის სიმძლავრის გათვალისწინებით და აგებულია მასშტაბურად. ის ასევე შექმნილია ისეთი აპლიკაციების მხარდასაჭერად, როგორიცაა ნივთების ინტერნეტი (IoT).

წაშლის კოდირება უზრუნველყოფს მონაცემთა დაცვას, ხოლო ობიექტურ სისტემებში მეტამონაცემების მოწინავე მხარდაჭერა შეიძლება სასარგებლო იყოს AI და ML აპლიკაციებისთვის.

ამის საპირისპიროდ, ობიექტების შენახვა ჩამორჩება ბლოკის სისტემებს შესრულებისთვის, თუმცა უფსკრული იხურება უფრო ახალი, მაღალი ხარისხის ობიექტის ტექნოლოგიებით. და აპლიკაციის მხარდაჭერა განსხვავებულია, ყველა AI, ML ან ანალიტიკური ხელსაწყოები არ უჭერს მხარს AWS-ის S3 ინტერფეისს, ობიექტის დე ფაქტო სტანდარტს.

ღრუბლოვანი საცავი

ღრუბლოვანი საცავი ძირითადად ობიექტზეა დაფუძნებული, მაგრამ გთავაზობთ სხვა უპირატესობებს AI და ML პროექტებისთვის. მათ შორის მთავარია მოქნილობა და დაბალი წინასწარი ხარჯები.

ღრუბლოვანი შენახვის მთავარი მინუსი არის შეყოვნება და მონაცემთა გაცემის პოტენციური ხარჯები. ღრუბლოვანი საცავი კარგი არჩევანია ღრუბელზე დაფუძნებული AI და ML სისტემებისთვის, მაგრამ უფრო რთულია იმის დასაბუთება, თუ სად არის საჭირო მონაცემების ამოღება და ჩატვირთვა ადგილობრივ სერვერებზე დასამუშავებლად, რადგან ეს ზრდის ღირებულებას. მაგრამ ღრუბელი ეკონომიურია მონაცემთა გრძელვადიანი არქივისთვის.

რას გვირჩევენ შენახვის მომწოდებლები?

გასაკვირი არ არის, რომ მომწოდებლები არ გირჩევენ ერთ გადაწყვეტას AI, ML ან ანალიტიკისთვის – აპლიკაციების რაოდენობა ძალიან ფართოა. ამის ნაცვლად, ისინი გვირჩევენ გადახედოთ ბიზნესის მოთხოვნებს პროექტის უკან, ისევე როგორც მომავლისკენ.

„გააზრება, თუ რა შედეგების ან ბიზნესის მიზანი გჭირდებათ, ყოველთვის უნდა იყოს თქვენი პირველი აზრი, როდესაც ირჩევთ, თუ როგორ მართოთ და შეინახოთ თქვენი მონაცემები“, – ამბობს პოლ ბრუკი, მონაცემთა ანალიტიკისა და AI-ს დირექტორი Dell-ისთვის EMEA. ”ზოგჯერ ერთი და იგივე მონაცემები შეიძლება საჭირო გახდეს სხვადასხვა შემთხვევებში და სხვადასხვა მიზნებისთვის.”

ბრუკი მიუთითებს კონვერგენციაზე ბლოკსა და ფაილების შენახვაზე ცალკეულ მოწყობილობებში და სისტემებს შორის, რომლებსაც შეუძლიათ გადალახონ უფსკრული ფაილისა და ობიექტის შენახვას შორის ერთი ფაილური სისტემის მეშვეობით. ეს დაეხმარება AI და ML დეველოპერებს უფრო გავრცელებული შენახვის არქიტექტურით.

მაგალითად, HPE რეკომენდაციას უწევს შიდა, ღრუბელ და ჰიბრიდულ ვარიანტებს AI-სთვის და ხედავს კონვერგენციას AI-სა და მაღალი ხარისხის გამოთვლებს შორის. NetApp ხელს უწყობს ღრუბელთან დაკავშირებულ, ყველა ფლეშ შენახვის სისტემას ONTAP AI-სთვის.

Cloudian-ში, CTO გარი ოგასავარა მოელის, რომ დაინახოს კონვერგენცია მონაცემთა საწყობის მაღალი ხარისხის სერიულ დამუშავებასა და მონაცემთა ნაკადის დამუშავების არქიტექტურებს შორის. ეს უბიძგებს მომხმარებლებს ობიექტური გადაწყვეტილებებისკენ.

„ბლოკსა და ფაილების შენახვას აქვს არქიტექტურული შეზღუდვები, რაც სკალირებას გარკვეულ პუნქტს მიღმა აკრძალავს“, – ამბობს ის. ”ობიექტების შენახვა უზრუნველყოფს უსაზღვრო, მაღალეფექტურ მასშტაბურობას. ობიექტების შენახვის მოწინავე მეტამონაცემების შესაძლებლობები კიდევ ერთი მთავარი უპირატესობაა AI/ML დატვირთვის მხარდასაჭერად.

ასევე სასიცოცხლოდ მნიშვნელოვანია შენახვის დაგეგმვა თავიდანვე, რადგან ადექვატური შენახვის გარეშე, პროექტის შესრულება დაზარალდება.

„იმისთვის, რომ წარმატებით განხორციელდეს AI და ML სამუშაო დატვირთვები, სათანადო შენახვის სტრატეგია ისეთივე მნიშვნელოვანია, როგორც თქვენ მიერ არჩეული გაფართოებული გამოთვლითი პლატფორმა“, ამბობს ჰიტაჩი ვანტარას კრისტენსენი. ”კომპლექსური განაწილებული და ძალიან ძვირი გამოთვლითი პლატფორმის დაქვეითება გამოიწვევს დაბალ შედეგს, ამცირებს თქვენი შედეგის ხარისხს და, საბოლოო ჯამში, ამცირებს დროს ღირებულებას.”

Facebook Comments

Share this post

კომენტარის დატოვება

თქვენი ელფოსტის მისამართი გამოქვეყნებული არ იყო.


has been added to your cart.
გადახდა