AI ሰዎችን የሚመስሉ ብልጭልጭ ሞዴሎች ወይም የንግግር ረዳቶች ብቻ አይደሉም። ከዚህ ሁሉ ጀርባ ተራራ - አንዳንዴ ውቅያኖስ - መረጃ አለ። እና በሐቀኝነት፣ ያንን ውሂብ በማስቀመጥ ላይ? ብዙውን ጊዜ ነገሮች የሚበላሹበት እዚያ ነው። የምስል ማወቂያ ቧንቧዎችን እያወሩ ወይም ግዙፍ የቋንቋ ሞዴሎችን እያሰለጠኑ ከሆነ፣ ለ AI የመረጃ ማከማቻ መስፈርቶች ካላሰቡት በፍጥነት ከቁጥጥር ውጭ ሊሆኑ ይችላሉ። ማከማቻ ለምን እንደዚህ አይነት አውሬ እንደሆነ፣ በጠረጴዛው ላይ ምን አማራጮች እንዳሉ እና እንዴት ወጪን፣ ፍጥነትን እና ሚዛንን ሳይቃጠሉ እንዴት እንደሚዋሃዱ እንለያይ።
ከዚህ ጽሑፍ በኋላ ሊያነቧቸው የሚችሏቸው ጽሑፎች፡
🔗 የውሂብ ሳይንስ እና አርቲፊሻል ኢንተለጀንስ፡ የፈጠራ የወደፊት ዕጣ ፈንታ
AI እና የውሂብ ሳይንስ ዘመናዊ ፈጠራን እንዴት እንደሚነዱ ማሰስ።
🔗 ሰው ሰራሽ የፈሳሽ ብልህነት፡ የወደፊቱ የ AI እና ያልተማከለ ውሂብ
ያልተማከለ የኤአይአይ መረጃን እና አዳዲስ ፈጠራዎችን ይመልከቱ።
🔗 ሊመለከቷቸው የሚገቡ የ AI መሳሪያዎች የውሂብ አስተዳደር
የ AI ውሂብ ማከማቻን እና ቅልጥፍናን ለማሻሻል ቁልፍ ስልቶች።
🔗 ለመረጃ ተንታኞች ምርጥ AI መሳሪያዎች፡ የውሳኔ አሰጣጥን ያሻሽሉ።
የውሂብ ትንተና እና ውሳኔ አሰጣጥን የሚያፋጥኑ ከፍተኛ AI መሳሪያዎች።
ስለዚህ… AI የውሂብ ማከማቻን ጥሩ የሚያደርገው ምንድን ነው? ✅
“ተጨማሪ ቴራባይት” ብቻ አይደለም። እውነተኛ AI-ተስማሚ ማከማቻ ለሁለቱም የሥልጠና ሩጫዎች እና የግምገማ የሥራ ጫናዎች ጥቅም ላይ የሚውል፣ ተዓማኒነት ያለው እና ፈጣን
ሊታወቁ የሚገባቸው ጥቂት ምልክቶች:
-
መጠነ-ሰፊነት ፡- ከጂቢ ወደ ፒቢዎች መዝለልን ያንተን አርክቴክቸር እንደገና ሳትጽፍ።
-
አፈጻጸም ፡ ከፍተኛ መዘግየት ጂፒዩዎችን ይራባል፤ ማነቆዎችን ይቅር አይሉም።
-
ድግግሞሽ ፡ ቅጽበተ-ፎቶዎች፣ ማባዛት፣ ማባዛት - ሙከራዎች ስለሚበላሹ እና ሰዎችም ስለሚያደርጉት ነው።
-
ወጪ ቆጣቢነት : ትክክለኛ ደረጃ, ትክክለኛ ጊዜ; ያለበለዚያ ሂሳቡ እንደ ታክስ ኦዲት ሾልኮ ይወጣል።
-
ለማስላት የቀረበ ቅርበት ፡ ማከማቻን ከጂፒዩ/TPUs ቀጥሎ ያስቀምጡ ወይም የውሂብ አሰጣጥ ማነቆን ይመልከቱ።
ያለበለዚያ ፣ በሳር ማጨጃ ነዳጅ ላይ ፌራሪን ለማስኬድ እንደ መሞከር ነው - በቴክኒካዊ ሁኔታ ይንቀሳቀሳል ፣ ግን ለረጅም ጊዜ አይደለም።
የንጽጽር ሰንጠረዥ፡ ለ AI የተለመዱ የማከማቻ ምርጫዎች
| የማከማቻ አይነት | ምርጥ የአካል ብቃት | የቦልፓርክ ዋጋ | ለምን እንደሚሰራ (ወይም እንደማይሰራ) |
|---|---|---|---|
| የደመና ነገር ማከማቻ | ጀማሪዎች እና መካከለኛ መጠን ያላቸው ኦፕስ | $$ (ተለዋዋጭ) | ተለዋዋጭ, ዘላቂ, ለመረጃ ሀይቆች ፍጹም; የመውጣት ክፍያዎችን ተጠንቀቁ + የጥያቄ ስኬት። |
| በግቢው ላይ NAS | ትላልቅ ኦርጎች ከ IT ቡድኖች ጋር | $$$$ | ሊገመት የሚችል መዘግየት, ሙሉ ቁጥጥር; ወደፊት capex + ቀጣይነት ያለው የኦፕስ ወጪዎች። |
| ድብልቅ ደመና | ተገዢነት-ከባድ ቅንብሮች | $$$ | የአካባቢያዊ ፍጥነትን ከስላስቲክ ደመና ጋር ያዋህዳል; ኦርኬስትራ የራስ ምታትን ይጨምራል። |
| ሁሉም-ፍላሽ ድርድሮች | ፐርፍ-የተጨነቀ ተመራማሪዎች | $$$$$ | በአስቂኝ ሁኔታ ፈጣን IOPS/ትርጉም; ግን TCO ቀልድ አይደለም. |
| የተከፋፈሉ የፋይል ስርዓቶች | AI devs / HPC ስብስቦች | $$–$$$ | ትይዩ I/O በከባድ ሚዛን (Lustre, Spectrum Scale); ops ሸክሙ እውነት ነው። |
ለምን የ AI ውሂብ ፍላጎቶች እየፈነዱ ነው 🚀
AI የራስ ፎቶዎችን ማጠራቀም ብቻ አይደለም። ነጣቂ ነው።
-
የሥልጠና ስብስቦች ፡ የImageNet's ILSVRC ብቻ ~1.2M የተሰየሙ ምስሎች፣ እና ጎራ-ተኮር ኮርፖራዎች ከዚያ አልፈው ይሄዳሉ።
-
ሥሪት ፡ እያንዳንዱ ማሻሻያ - መለያዎች፣ ስንጠቃዎች፣ ማሻሻያዎች - ሌላ “እውነት” ይፈጥራል።
-
የዥረት ግብዓቶች ፡ የቀጥታ እይታ፣ ቴሌሜትሪ፣ ሴንሰር ምግቦች… የማያቋርጥ የእሳት ቧንቧ ነው።
-
ያልተዋቀሩ ቅርጸቶች ፡ ጽሑፍ፣ ቪዲዮ፣ ኦዲዮ፣ ምዝግብ ማስታወሻዎች - ከጽዱ የSQL ጠረጴዛዎች የበለጠ ትልቅ።
ሁሉም-የሚበሉት ቡፌ ነው፣ እና ሞዴሉ ሁልጊዜ ለጣፋጭነት ይመለሳል።
ክላውድ vs ግቢ፡ የማያልቅ ክርክር 🌩️🏢
ክላውድ ፈታኝ ይመስላል፡- ማለቂያ የሌለው፣ አለምአቀፋዊ፣ ስትሄድ ይክፈል። የክፍያ መጠየቂያዎ የወጪ ክፍያዎችን - እና በድንገት የእርስዎ "ርካሽ" ማከማቻ ተቀናቃኝ ወጪዎችን ያስከፍላል [2].
በሌላ በኩል በፕሪም ላይ ቁጥጥር እና ጠንካራ አፈፃፀም ይሰጣል፣ ነገር ግን ለሃርድዌር፣ ለኃይል፣ ለማቀዝቀዝ እና ለሰዎች ለህጻናት ማሳደጊያ መደርደሪያዎች ጭምር እየከፈሉ ነው።
አብዛኛዎቹ ቡድኖች በተዘበራረቀ መሃል ይሰፍራሉ ፡ ድብልቅ ቅንብር። ትኩስ፣ ሚስጥራዊነት ያለው፣ ከፍተኛ-አሰራጭ ውሂብን ወደ ጂፒዩዎቹ ያቅርቡ እና የቀረውን በደመና ደረጃዎች ውስጥ ያስቀምጡ።
💸 የማከማቻ ወጪዎች
አቅም የገጽታ ንብርብር ብቻ ነው። የተደበቁ ወጪዎች ይከማቻሉ;
-
የውሂብ እንቅስቃሴ ፡-የክልል ቅጂዎች፣የደመና ተሻጋሪ ዝውውሮች፣የተጠቃሚው መውጣት እንኳ [2]።
-
ድግግሞሽ ፡ 3-2-1ን ተከትሎ (ሶስት ቅጂ፣ ሁለት ሚዲያ፣ አንድ ከጣቢያ ውጪ) ቦታ ይበላል ግን ቀኑን ይቆጥባል [3]።
-
ኃይል እና ማቀዝቀዣ ፡ የእርስዎ መደርደሪያ ከሆነ የሙቀት ችግርዎ ነው።
-
የቆይታ ጊዜ ንግዶች ፡- ርካሽ ደረጃዎች ብዙውን ጊዜ የበረዶ መመለሻ ፍጥነቶች ማለት ነው።
ደህንነት እና ተገዢነት፡ ጸጥታ ሰባሪዎች 🔒
ደንቦቹ ባይት የሚኖሩበትን ቦታ በትክክል ሊወስኑ ይችላሉ። በ UK GDPR ፣ የግል መረጃን ከዩኬ ለመውጣት ህጋዊ የማስተላለፊያ መንገዶችን (ኤስ.ሲ.ሲ.ዎች፣ መታወቂያዎች፣ ወይም በቂ ደንቦች) ያስፈልገዋል። ትርጉም፡ የማከማቻ ንድፍህ ጂኦግራፊን “ማወቅ” አለበት [5]።
ከመጀመሪያው ቀን ለመጋገር መሰረታዊ ነገሮች
-
ምስጠራ - ሁለቱም ማረፍ እና መጓዝ።
-
በጣም ዝቅተኛ መብት መዳረሻ + የኦዲት መንገዶች።
-
እንደ አለመለወጥ ወይም የነገር መቆለፊያ ያሉ ጥበቃዎችን ሰርዝ
የአፈጻጸም ጠርሙሶች፡ መዘግየት ዝምተኛው ገዳይ ነው ⚡
ጂፒዩዎች መጠበቅን አይወዱም። ማከማቻው ዘግይቶ ከሆነ፣ የተከበሩ ማሞቂያዎች ናቸው። NVIDIA GPUDirect Storage ያሉ መሳሪያዎች የሲፒዩ መካከለኛውን ቆርጠዋል፣ መረጃውን ከNVMe ወደ ጂፒዩ ማህደረ ትውስታ በቀጥታ በመዝጋት - ልክ ትልቅ-ባች የስልጠና ፍላጎት [4]።
የተለመዱ ጥገናዎች
-
NVMe ሁለንተናዊ ብልጭታ ለሞቁ የሥልጠና ሻርዶች።
-
ትይዩ የፋይል ሲስተሞች (Lustre፣ Spectrum Scale) ለብዙ-መስቀለኛ መንገድ ልቀት።
-
ጂፒዩዎች ስራ ፈትተው እንዳይሰሩ ለማድረግ ጫኚዎችን ከsharding + prefetch ጋር አስምር።
AI ማከማቻን ለማስተዳደር ተግባራዊ እንቅስቃሴዎች 🛠️
-
ደረጃ : በ NVMe/SSD ላይ ትኩስ ፍርስራሾች; የቆየ መዝገብ ወደ ዕቃ ወይም ቀዝቃዛ ደረጃዎች ያዘጋጃል።
-
Dedup + delta : መሰረታዊ መስመሮችን አንድ ጊዜ ያከማቹ ፣ ልዩነቶችን + መግለጫዎችን ብቻ ያስቀምጡ።
-
የህይወት ዑደት ህጎች ፡ ራስ-ሰር ደረጃ እና ጊዜ ያለፈባቸው የቆዩ ውጤቶች [2]።
-
3-2-1 የመቋቋም ችሎታ ፡ ሁል ጊዜ ብዙ ቅጂዎችን በተለያዩ ሚዲያዎች ላይ በአንድ ገለልተኛ [3] አስቀምጥ።
-
መሳሪያ ፡ የሂደቱን ሂደት ይከታተሉ፣ p95/p99 መዘግየት፣ ያልተሳካ ንባብ፣ በስራ ጫና መውጣት።
ፈጣን (የተሰራ ግን የተለመደ) ጉዳይ 📚
የእይታ ቡድን በ~20 ቲቢ በደመና ነገር ማከማቻ ይጀምራል። በኋላ፣ ለሙከራዎች በክልሎች ውስጥ የውሂብ ስብስቦችን መዝጋት ይጀምራሉ። ወጪያቸው ፊኛ - ከማከማቻው ራሱ ሳይሆን ከውጪ ትራፊክ . ትኩስ ሻርዶችን ወደ NVMe ወደ ጂፒዩ ክላስተር ይጠጋሉ፣ ቀኖናዊ ቅጂ በእቃ ማከማቻ ውስጥ ያስቀምጣሉ (ከህይወት ዑደቶች ጋር) እና የሚያስፈልጋቸውን ናሙናዎች ብቻ ይሰኩት። ውጤት፡ ጂፒዩዎች ስራ የሚበዛባቸው ናቸው፣ ሂሳቦች ቀና ናቸው እና የውሂብ ንፅህና ይሻሻላል።
ከፖስታ ጀርባ ያለው አቅም ማቀድ 🧮
ለመገመት ረቂቅ ቀመር፡-
አቅም ≈ (ጥሬ የውሂብ ስብስብ) × (የመባዛት ሁኔታ) + (ቅድመ-ተሰራ / የተሻሻለ ውሂብ) + (የፍተሻ ነጥቦች + ምዝግብ ማስታወሻዎች) + (የደህንነት ህዳግ ~15-30%)
ከዚያ ንፅህና ከውጤት ጋር ያረጋግጡ። የመስቀለኛ መንገድ ጫኚዎች ~2–4 ጂቢ/ሰ መቆየት የሚያስፈልጋቸው ከሆነ፣ NVMeን ወይም ትይዩ FSን ለሞቁ መንገዶች እየተመለከቱ ነው፣ የነገር ማከማቻ እንደ መሬት እውነት።
ስለ Space 📊 ብቻ አይደለም።
ሰዎች የኤአይ ማከማቻ መስፈርቶች ቴራባይት ወይም ፔታባይት ይሳሉ። ነገር ግን ትክክለኛው ብልሃት ሚዛን ነው፡ ወጪ ከአፈጻጸም ጋር፣ ተለዋዋጭነት እና ተገዢነት፣ ፈጠራ እና መረጋጋት። የኤአይአይ መረጃ በቅርብ ቀን እየቀነሰ አይደለም። ማከማቻን ወደ ሞዴል ዲዛይን ቀድመው የሚጥፉ ቡድኖች በመረጃ ረግረጋማ ቦታዎች ውስጥ ከመስጠም ይቆጠባሉ - እና እነሱም በፍጥነት ማሰልጠን ይጀምራሉ።
ማጣቀሻዎች
[1] ሩሳኮቭስኪ እና ሌሎች. ImageNet Large Scale Visual Recognition Challenge (IJCV) — የውሂብ ስብስብ ልኬት እና ፈተና። አገናኝ
[2] AWS — Amazon S3 ዋጋ አሰጣጥ እና ወጪዎች (የውሂብ ማስተላለፍ፣ መውጣት፣ የህይወት ዑደት ደረጃዎች)። አገናኝ
[3] CISA — 3-2-1 የመጠባበቂያ ደንብ ምክር። አገናኝ
[4] NVIDIA ሰነዶች - GPUDirect ማከማቻ አጠቃላይ እይታ። አገናኝ
[5] ICO - የዩኬ GDPR በአለምአቀፍ የውሂብ ዝውውሮች ላይ ህጎች። አገናኝ