AI Dataset ምንድን ነው?

AI Dataset ምንድን ነው?

የኤአይ ሲስተሞችን እየገነቡ፣ እየገዙ ወይም እየገመገሙ ከሆነ፣ ወደ አንድ አታላይ ቀላል ጥያቄ ውስጥ ይገባሉ & የ AI ዳታ ስብስብ ምንድን ነው እና ለምን በጣም አስፈላጊ የሆነው? አጭር እትም፡ ነዳጁ፣ የምግብ ማብሰያው እና አንዳንዴም ለሞዴልዎ ኮምፓስ ነው። 

ከዚህ ጽሑፍ በኋላ ሊያነቧቸው የሚችሏቸው ጽሑፎች፡

🔗 እንዴት AI አዝማሚያዎችን ይተነብያል
የወደፊት ክስተቶችን እና ባህሪዎችን ለመተንበይ AI እንዴት ቅጦችን እንደሚተነትን ያስሳል።

🔗 የ AI አፈፃፀምን እንዴት እንደሚለካ
ትክክለኛነትን, ቅልጥፍናን እና ሞዴል አስተማማኝነትን ለመገምገም መለኪያዎች እና ዘዴዎች.

🔗 እንዴት ከ AI ጋር መነጋገር እንደሚቻል
በአይ-የተፈጠሩ ምላሾችን ለማሻሻል የተሻሉ መስተጋብሮችን ለመፍጠር መመሪያ።

🔗 AI የሚያነሳሳው ምንድን ነው?
የ AI ውጤቶች እና አጠቃላይ የግንኙነት ጥራት እንዴት እንደሚቀርጹ አጠቃላይ እይታ።


AI Dataset ምንድን ነው? ፈጣን ፍቺ 🧩

AI የውሂብ ስብስብ ምንድን ነው? የእርስዎ ሞዴል የሚማራቸው ወይም የሚገመገሙበት የምሳሌዎች ስብስብ ነው እያንዳንዱ ምሳሌ የሚከተለው አለው:

  • ግብዓቶች - እንደ የጽሑፍ ቅንጥቦች ፣ ምስሎች ፣ ኦዲዮ ፣ የሰንጠረዥ ረድፎች ፣ የአነፍናፊ ንባቦች ፣ ግራፎች ያሉ ሞዴሉ የሚያያቸው ባህሪዎች።

  • ዒላማዎች - መለያዎች ወይም ውጤቶች አምሳያው መተንበይ አለበት፣ እንደ ምድቦች፣ ቁጥሮች፣ የጽሑፍ ርዝማኔዎች፣ ድርጊቶች፣ ወይም አንዳንዴ ምንም የለም።

  • ዲበ ውሂብ - እንደ ምንጭ፣ የመሰብሰቢያ ዘዴ፣ የጊዜ ማህተም፣ ፍቃዶች፣ የስምምነት መረጃ እና የጥራት ማስታወሻዎች ያሉ አውድ።

ለሞዴልዎ በጥንቃቄ እንደታሸገ የምሳ ሳጥን ያስቡበት፡ ንጥረ ነገሮች፣ መለያዎች፣ የአመጋገብ እውነታዎች እና አዎ፣ “ይህን ክፍል አትብሉ” የሚለው ተለጣፊ ማስታወሻ። 🍱

ክትትል ለሚደረግባቸው ተግባራት፣ ከግልጽ መለያዎች ጋር የተጣመሩ ግብዓቶችን ያያሉ። ላልተቆጣጠሩ ተግባራት፣ መለያዎች የሌሉ ግብዓቶችን ያያሉ። ለማጠናከሪያ ትምህርት፣ ውሂቡ ብዙውን ጊዜ ከግዛቶች፣ ድርጊቶች፣ ሽልማቶች ጋር የትዕይንት ክፍሎች ወይም ትዕይንቶች ይመስላል። ለመልቲሞዳል ሥራ ምሳሌዎች ጽሑፍ + ምስል + ድምጽን በአንድ መዝገብ ውስጥ ማዋሃድ ይችላሉ። የሚያምር ይመስላል; በአብዛኛው የቧንቧ ስራ ነው.

ጠቃሚ ፕሪመርሮች እና ልምምዶች ፡ የውሂብ ሉህ ለዳታሴቶች ሃሳብ ቡድኖች በውስጡ ያለውን እና እንዴት ጥቅም ላይ መዋል እንዳለበት እንዲያብራሩ ይረዳል [1]፣ እና የሞዴል ካርዶች በአምሳያው በኩል የመረጃ ሰነዶችን ያሟላሉ [2]።

 

የAI የውሂብ ስብስብ

ጥሩ የ AI ዳታ ስብስብ የሚያደርገው ምንድን ነው ✅

እውነቱን እንነጋገር ከተባለ የመረጃ ቋቱ አስፈሪ ስላልነበረ ብዙ ሞዴሎች ተሳክተዋል። “ጥሩ” የውሂብ ስብስብ የሚከተለው ነው-

  • የላብራቶሪ ሁኔታዎችን ብቻ ሳይሆን የእውነተኛ አጠቃቀም ጉዳዮችን ተወካይ

  • በትክክል የተሰየመ ፣ ግልጽ መመሪያዎች እና ወቅታዊ ዳኝነት ያለው። የስምምነት መለኪያዎች (ለምሳሌ፣ kappa-style መለኪያዎች) የንፅህና መጠበቂያን ለማረጋገጥ ይረዳሉ።

  • ረዣዥም ጅራቶች ላይ ጸጥ ያለ ውድቀትን ለማስወገድ የተሟላ እና ሚዛናዊ አለመመጣጠን የተለመደ ነው; ቸልተኝነት አይደለም.

  • በስምምነት፣ በፈቃድ እና በፈቃዶች በሰነድ የተመዘገቡ በፕሮቬንሽን ውስጥ ያጽዱ አሰልቺው የወረቀት ስራ አስደሳች የሆኑትን ክሶች ይከላከላል.

  • የታለመ አጠቃቀምን፣ ገደቦችን እና የታወቁ የውድቀት ሁነታዎችን የሚገልጹ የውሂብ ካርዶችን ወይም የውሂብ ሉሆችን በመጠቀም በደንብ ተመዝግቧል

  • በስሪት፣ በለውጦች እና በማጽደቅ የሚተዳደር የውሂብ ስብስብን እንደገና ማባዛት ካልቻሉ ሞዴሉን እንደገና ማባዛት አይችሉም. ከ NIST's AI Risk Management Framework የውሂብ ጥራትን እና ሰነዶችን እንደ አንደኛ ደረጃ ስጋቶች ይመለከታል።


የ AI የውሂብ ስብስቦች ዓይነቶች፣ በምትሠሩት ነገር 🧰

በተግባር

  • ምደባ - ለምሳሌ፣ አይፈለጌ መልእክት አይፈለጌ መልዕክት አይደለም፣ የምስል ምድቦች።

  • መመለሻ - እንደ ዋጋ ወይም ሙቀት ያለ ቀጣይነት ያለው እሴት ይተነብዩ.

  • ተከታታይ መለያዎች - የተሰየሙ አካላት, የንግግር ክፍሎች.

  • ትውልድ - ማጠቃለያ, ትርጉም, የምስል መግለጫ ጽሑፍ.

  • ጥቆማ - ተጠቃሚ፣ ንጥል ነገር፣ መስተጋብር፣ አውድ።

  • Anomaly ማወቂያ - በጊዜ ተከታታይ ወይም ምዝግብ ውስጥ ብርቅ ክስተቶች.

  • የማጠናከሪያ ትምህርት - ግዛት, ድርጊት, ሽልማት, ቀጣይ-ግዛት ቅደም ተከተሎች.

  • ሰርስሮ ማውጣት - ሰነዶች, ጥያቄዎች, ተዛማጅ ፍርዶች.

በሞዴሊቲ

  • ሠንጠረዥ - እንደ ዕድሜ, ገቢ, ጩኸት ያሉ አምዶች. ዝቅተኛ ደረጃ ፣ በጭካኔ ውጤታማ።

  • ጽሑፍ - ሰነዶች, ቻቶች, ኮድ, የመድረክ ጽሁፎች, የምርት መግለጫዎች.

  • ምስሎች - ፎቶዎች, የሕክምና ስካን, የሳተላይት ሰቆች; ጭምብል ወይም ያለ ጭምብል, ሳጥኖች, ቁልፍ ነጥቦች.

  • ኦዲዮ - ሞገድ ቅርጾች, ግልባጭ, የድምጽ ማጉያ መለያዎች.

  • ቪዲዮ - ፍሬሞች ፣ ጊዜያዊ ማብራሪያዎች ፣ የድርጊት መለያዎች።

  • ግራፎች - አንጓዎች, ጠርዞች, ባህሪያት.

  • የጊዜ ተከታታይ - ዳሳሾች, ፋይናንስ, ቴሌሜትሪ.

በክትትል

  • የተሰየመ (ወርቅ፣ ብር፣ በራስ-የተሰየመ)፣ ደካማ ምልክት የተደረገበትያልተሰየመሰው ሰራሽ . በመደብር የተገዛ ኬክ ድብልቅ ጨዋ ሊሆን ይችላል - ሳጥኑን ካነበቡ።


በሳጥኑ ውስጥ፡ መዋቅር፣ ስንጥቅ እና ሜታዳታ 📦

ጠንካራ የውሂብ ስብስብ ብዙውን ጊዜ የሚከተሉትን ያጠቃልላል

  • ንድፍ - የተተየቡ መስኮች ፣ ክፍሎች ፣ የተፈቀዱ እሴቶች ፣ ባዶ አያያዝ።

  • የተከፋፈለ - ባቡር, ማረጋገጫ, ሙከራ. የፈተናውን መረጃ ዘግተው ያስቀምጡ - እንደ መጨረሻው የቸኮሌት ቁራጭ አድርገው ይያዙት።

  • የናሙና እቅድ - ከህዝቡ ምሳሌዎችን እንዴት እንደሳሉ; ከአንድ ክልል ወይም መሳሪያ ምቹ የሆኑ ናሙናዎችን ያስወግዱ.

  • ጭማሪዎች - መገልበጥ ፣ ሰብሎች ፣ ጫጫታ ፣ ሐረጎች ፣ ጭምብሎች። ሐቀኛ ሲሆን ጥሩ; በዱር ውስጥ ፈጽሞ የማይከሰቱ ንድፎችን ሲፈጥሩ ጎጂ.

  • ሥሪት - ዳታሴስት v0.1፣ v0.2… ዴልታዎችን ከሚገልጹ የለውጥ ሎግዎች ጋር።

  • ፈቃዶች እና ፍቃዶች - የአጠቃቀም መብቶች፣ መልሶ ማከፋፈል እና የመሰረዝ ፍሰቶች። የብሔራዊ መረጃ ጥበቃ ተቆጣጣሪዎች (ለምሳሌ፣ የዩኬ ICO) ተግባራዊ፣ ህጋዊ አሰራር ማረጋገጫ ዝርዝሮችን ይሰጣሉ [4]።


የውሂብ ስብስብ የህይወት ኡደት፣ ደረጃ በደረጃ 🔁

  1. ውሳኔውን ይግለጹ - ሞዴሉ ምን እንደሚወስን, እና ስህተት ከሆነ ምን እንደሚሆን.

  2. ወሰን ባህሪያት እና መለያዎች - ሊለካ የሚችል, የሚታይ, ለመሰብሰብ ሥነ ምግባራዊ.

  3. የምንጭ መረጃ - መሳሪያዎች, ምዝግብ ማስታወሻዎች, የዳሰሳ ጥናቶች, የህዝብ ኮርፖሬሽን, አጋሮች.

  4. ፈቃድ እና ህጋዊ - የግላዊነት ማሳወቂያዎች፣ መርጦ መውጣት፣ የውሂብ መቀነስ። የ “ለምን” እና “እንዴት” [4] የሚለውን የተቆጣጣሪ መመሪያ ይመልከቱ።

  5. ይሰብስቡ እና ያከማቹ - ደህንነቱ የተጠበቀ ማከማቻ፣ ሚና ላይ የተመሰረተ መዳረሻ፣ PII አያያዝ።

  6. መለያ - የውስጥ ገላጭዎች, የሰዎች ስብስብ, ባለሙያዎች; ጥራትን በወርቅ ስራዎች፣ ኦዲቶች እና የስምምነት መለኪያዎችን ያስተዳድሩ።

  7. አጽዳ እና መደበኛ ማድረግ - መጥፋትን፣ መጉደልን ማስተናገድ፣ አሃዶችን መደበኛ ማድረግ፣ ኢንኮዲንግ ማስተካከል። አሰልቺ ፣ የጀግንነት ስራ።

  8. መከፋፈል እና ማረጋገጥ - መፍሰስን መከላከል; አግባብነት ባለው ቦታ ላይ ያስተካክሉት; ለጊዜያዊ ውሂብ ጊዜ የሚያውቁ ክፍፍሎችን ይመርጣሉ; እና ለጠንካራ ግምቶች የመስቀል ማረጋገጫን በጥንቃቄ ተጠቀም [5]።

  9. ሰነድ - የውሂብ ሉህ ወይም የውሂብ ካርድ; የታሰበ አጠቃቀም፣ ማሳሰቢያዎች፣ ገደቦች [1]።

  10. ተቆጣጠር እና አዘምን - ተንሸራታች ማወቅ፣ አድስ ድፍረት፣ ጀምበር ስትጠልቅ ዕቅዶች። የNIST's AI RMF ይህንን ቀጣይነት ያለው የአስተዳደር ዑደት [3] ቀርጿል።

ፈጣን፣ የገሃዱ ዓለም ቅርጽ ያለው ጠቃሚ ምክር፡ ቡድኖች ብዙውን ጊዜ “ማሳያውን ያሸንፋሉ” ነገር ግን በምርት ላይ ይሰናከላሉ ምክንያቱም የመረጃ ቋታቸው በጸጥታ ስለሚንሸራተት አዲስ የምርት መስመሮች፣ የተሰየመ መስክ ወይም የተለወጠ ፖሊሲ። ቀላል የለውጥ ሎግ + ወቅታዊ የድጋሚ ማብራሪያ ማለፊያ አብዛኛውን ያንን ህመም ያስወግዳል።


የውሂብ ጥራት እና ግምገማ - እንደሚመስለው ደብዛዛ አይደለም 🧪

ጥራት ባለብዙ-ልኬት ነው፡-

  • ትክክለኛነት - መለያዎች ትክክል ናቸው? የስምምነት መለኪያዎችን እና ወቅታዊ ዳኝነትን ተጠቀም።

  • የተሟላነት - በትክክል የሚፈልጉትን መስኮች እና ክፍሎች ይሸፍኑ።

  • ወጥነት - ለተመሳሳይ ግብዓቶች ተቃራኒ መለያዎችን ያስወግዱ።

  • ወቅታዊነት - የቆየ መረጃ ግምቶችን ይፈጥራል።

  • ፍትሃዊነት እና አድልዎ - በስነ-ሕዝብ ፣ ቋንቋዎች ፣ መሣሪያዎች ፣ አካባቢዎች ላይ ሽፋን; ገላጭ ኦዲት በማድረግ ይጀምሩ፣ ከዚያም የጭንቀት ፈተናዎች። ሰነዶች-የመጀመሪያዎቹ ልምዶች (ዳታ ሉሆች፣ ሞዴል ካርዶች) እነዚህን ቼኮች እንዲታዩ ያደርጋቸዋል [1]፣ እና የአስተዳደር ማዕቀፎች እንደ ስጋት መቆጣጠሪያዎች አፅንዖት ይሰጣሉ።

ለሞዴል ግምገማ፣ ትክክለኛ ክፍፍሎችን እና ሁለቱንም አማካኝ መለኪያዎችን እና የከፋ የቡድን መለኪያዎችን ይከታተሉ። የሚያብረቀርቅ አማካይ ጉድጓድ መደበቅ ይችላል። ተሻጋሪ የማረጋገጫ መሰረታዊ ነገሮች በመደበኛ ML tooling docs [5] በደንብ የተሸፈኑ ናቸው።


ስነምግባር፣ ግላዊነት እና ፍቃድ - የጥበቃ መንገዶች 🛡️

ሥነ ምግባራዊ መረጃ መንቀጥቀጥ አይደለም፣ ሂደት ነው፡-

  • የፈቃድ እና የዓላማ ገደብ - ስለ አጠቃቀሞች እና ህጋዊ መሠረቶች ግልጽ መሆን [4]።

  • PII አያያዝ - አሳንስ፣ ስም ማጥፋት፣ ወይም እንደአግባቡ ስም ማጥፋት፤ አደጋዎች ከፍተኛ ሲሆኑ ግላዊነትን የሚያሻሽል ቴክኖሎጂን ግምት ውስጥ ያስገቡ።

  • መለያ እና ፈቃዶች - ተመሳሳይ እና የንግድ አጠቃቀም ገደቦችን ያክብሩ።

  • አድልኦ እና ጉዳት - ለተሳሳተ ዝምድናዎች ኦዲት (“የቀን ብርሃን = ደህንነቱ የተጠበቀ” በምሽት በጣም ግራ ይጋባል)።

  • ማረም - በተጠየቁ ጊዜ ውሂብን እንዴት ማስወገድ እንደሚችሉ እና በእሱ ላይ የሰለጠኑ ሞዴሎችን እንዴት እንደሚመልሱ ይወቁ (ይህን በመረጃ ሉህ ውስጥ ይመዝግቡ) [1]።


ምን ያህል ትልቅ በቂ ነው? የመጠን መጠን እና ምልክት-ወደ-ጫጫታ 📏

የጣት ህግ፡ ተጨማሪ ምሳሌዎች ከሆኑ እና የተባዙ ካልሆኑ ያግዛሉ። ከተመሰቃቀሉ ተራሮች ይልቅ ባነሰ፣ ንጹህ እና የተሻለ ምልክት የተደረገባቸው ይሻላሉ

ይመልከቱ ለ፡

  • የመማሪያ ኩርባዎች - ከናሙና መጠን ጋር ሲነፃፀሩ በውሂብ የተያዙ ወይም በአምሳያ የተያዙ መሆንዎን ለማየት።

  • የረጅም ጅራት ሽፋን - ብርቅ ግን ወሳኝ ክፍሎች ብዙ ብቻ ሳይሆን የታለመ ስብስብ ያስፈልጋቸዋል።

  • ምልክት ጫጫታ - ይለኩ, ከዚያም ይቀንሱ; ትንሽ ይታገሣል, ማዕበል ሞገድ አይደለም.

  • የስርጭት ፈረቃ - ከአንድ ክልል ወይም ቻናል የመጣ የሥልጠና መረጃ ወደ ሌላ ላያጠቃልል ይችላል። ዒላማ በሚመስል የሙከራ ውሂብ ላይ አረጋግጥ [5]።

በሚጠራጠሩበት ጊዜ ትናንሽ አብራሪዎችን ያሂዱ እና ያስፋፉ። ልክ እንደ ማጣፈጫ-መደመር፣ ቅመሱ፣ አስተካክል፣ መድገም ነው።


የውሂብ ስብስቦችን የት ማግኘት እና ማስተዳደር እንደሚቻል 🗂️

ታዋቂ ሀብቶች እና መሳሪያዎች (አሁን ዩአርኤሎችን ማስታወስ አያስፈልግም)

  • የፊት ዳታ ስብስቦችን ማቀፍ - ፕሮግራማዊ ጭነት ፣ ሂደት ፣ መጋራት።

  • Google የውሂብ ስብስብ ፍለጋ - በድር ላይ ሜታ ፍለጋ።

  • UCI ML Repository - ለመሠረታዊ መስመሮች እና ለማስተማር የተዘጋጁ ክላሲኮች።

  • OpenML - ተግባራት + የውሂብ ስብስቦች + ከፕሮቬንሽን ጋር ይሰራል።

  • AWS ክፈት ውሂብ / Google Cloud Public Datasets - የተስተናገደ፣ ትልቅ መጠን ያለው ኮርፖራ።

ጠቃሚ ምክር፡ ዝም ብለህ አታወርድ። ፈቃዱን እና ዳታ ሉህውን ያንብቡ እና የራስዎን ቅጂ በስሪት ቁጥሮች እና ፕሮቬንሽን ይመዝግቡ።


መለያ እና ማብራሪያ - እውነት የሚደራደርበት ✍️

ማብራሪያ የንድፈ ሃሳባዊ መለያ መመሪያዎ ከእውነታው ጋር የሚታገልበት ነው፡-

  • የተግባር ንድፍ - በምሳሌዎች እና ተቃራኒ ምሳሌዎች ግልጽ መመሪያዎችን ይፃፉ.

  • ገላጭ ማሰልጠኛ - ዘር ከወርቅ መልሶች ጋር፣ የመለኪያ ዙሮችን አሂድ።

  • የጥራት ቁጥጥር - የስምምነት መለኪያዎችን፣ የጋራ መግባባት ዘዴዎችን እና ወቅታዊ ኦዲቶችን ይጠቀሙ።

  • መገልገያ - የመርሃግብር ማረጋገጫ እና የግምገማ ወረፋዎችን የሚያስፈጽሙ መሳሪያዎችን ይምረጡ; የተመን ሉሆች እንኳን ከህጎች እና ቼኮች ጋር ሊሰሩ ይችላሉ።

  • የግብረመልስ ምልልስ - መመሪያውን ለማጣራት ገላጭ ማስታወሻዎችን እና የሞዴል ስህተቶችን ይያዙ።

ስለ ነጠላ ሰረዝ ካልተስማሙ ከሶስት ጓደኞች ጋር መዝገበ-ቃላትን ማስተካከል ከፈለጉ… ይህ የተለመደ ነው። 🙃


የውሂብ ሰነድ - ስውር እውቀትን ግልጽ ማድረግ 📒

ቀላል ክብደት ያለው የውሂብ ሉህ ወይም የውሂብ ካርድ የሚከተሉትን መሸፈን አለበት፡-

  • ማን እንደሰበሰበው፣ እንዴት እና ለምን።

  • የታቀዱ አጠቃቀሞች እና ከወሰን ውጪ አጠቃቀሞች።

  • የታወቁ ክፍተቶች፣ አድልዎ እና የውድቀት ሁነታዎች።

  • መለያ መስጠት ፕሮቶኮል፣ QA ደረጃዎች እና የስምምነት ስታቲስቲክስ።

  • ፈቃድ፣ ስምምነት፣ ለጉዳዮች ግንኙነት፣ የማስወገድ ሂደት።

አብነቶች እና ምሳሌዎች፡ የውሂብ ሉህ የውሂብ ስብስቦች እና የሞዴል ካርዶች መነሻ ነጥቦች በስፋት ጥቅም ላይ ይውላሉ [1]።

በምትገነባበት ጊዜ ጻፍ እንጂ በኋላ አይደለም. ማህደረ ትውስታ ደካማ ማከማቻ መካከለኛ ነው።


የንጽጽር ሠንጠረዥ - AI የውሂብ ስብስቦችን ለማግኘት ወይም ለማስተናገድ ቦታዎች 📊

አዎ፣ ይህ ትንሽ አስተያየት ነው። እና ቃላቱ ሆን ብለው ትንሽ እኩል አይደሉም። ጥሩ ነው።

መሣሪያ / Repo ታዳሚዎች ዋጋ በተግባር ለምን እንደሚሰራ
የፊት ዳታ ስብስቦችን ማቀፍ ተመራማሪዎች፣ መሐንዲሶች ነፃ-ደረጃ ፈጣን ጭነት, ዥረት, የማህበረሰብ ስክሪፕቶች; በጣም ጥሩ ሰነዶች; የተሻሻሉ የውሂብ ስብስቦች
Google የውሂብ ስብስብ ፍለጋ ሁሉም ሰው ፍርይ ሰፊ ወለል አካባቢ; ለግኝት በጣም ጥሩ; አንዳንድ ጊዜ ወጥነት የሌለው ሜታዳታ እንዲሁ
UCI ML ማከማቻ ተማሪዎች, አስተማሪዎች ፍርይ የተሰበሰቡ ክላሲኮች; ትንሽ ግን ንጹህ; ለመሠረታዊ እና ለማስተማር ጥሩ
ML ክፈት Repro ተመራማሪዎች ፍርይ ተግባራት + የውሂብ ስብስቦች + አብረው ይሠራሉ; ጥሩ የፕሮቬንሽን መንገዶች
AWS የውሂብ መዝገብ ክፈት የውሂብ መሐንዲሶች በአብዛኛው ነፃ የፔታባይት መጠን ማስተናገድ; ደመና-ተወላጅ መዳረሻ; የመውጣት ወጪዎችን ይመልከቱ
Kaggle የውሂብ ስብስቦች ባለሙያዎች ፍርይ ቀላል መጋራት ፣ ስክሪፕቶች ፣ ውድድሮች; የማህበረሰብ ምልክቶች ድምጽን ለማጣራት ይረዳሉ
Google ክላውድ ይፋዊ የውሂብ ስብስቦች ተንታኞች ፣ ቡድኖች ነፃ + ደመና በስሌት አቅራቢያ የተስተናገደ; BigQuery ውህደት; በሂሳብ አከፋፈል በጥንቃቄ
የአካዳሚክ መግቢያዎች, ቤተ ሙከራዎች ጥሩ ባለሙያዎች ይለያያል ከፍተኛ ልዩ; አንዳንድ ጊዜ ከሰነድ በታች - አሁንም ለማደን ዋጋ ያለው

(አንድ ሕዋስ ወሬኛ የሚመስል ከሆነ ያ ሆን ተብሎ የተደረገ ነው።)


የመጀመሪያዎን መገንባት - ተግባራዊ ማስጀመሪያ ኪት 🛠️

ከ"የ AI ዳታ ስብስብ ምንድን ነው" ወደ "እኔ አንድ ሰርቻለሁ፣ ይሰራል።" ይህን አነስተኛውን መንገድ ይሞክሩት፡-

  1. ውሳኔውን እና መለኪያውን ይፃፉ - ለምሳሌ, ትክክለኛውን ቡድን በመተንበይ የሚመጡ የድጋፍ ስህተቶችን ይቀንሱ. መለኪያ፡ ማክሮ-ኤፍ1.

  2. 5 አዎንታዊ እና 5 አሉታዊ ምሳሌዎችን ይዘርዝሩ - ናሙና እውነተኛ ቲኬቶች; አትፍጠር።

  3. የመለያ መመሪያን ያዘጋጁ - አንድ ገጽ; ግልጽ የማካተት/የማግለል ህጎች።

  4. ትንሽ, እውነተኛ ናሙና ይሰብስቡ - በምድቦች ውስጥ ጥቂት መቶ ትኬቶች; የማያስፈልጉዎትን PII ን ያስወግዱ።

  5. በፍሳሽ ፍተሻዎች ተከፋፈሉ - ሁሉንም መልዕክቶች ከአንድ ደንበኛ በአንድ ክፍፍል ውስጥ ያቆዩ። ልዩነትን ለመገመት ተሻጋሪ ማረጋገጫን ይጠቀሙ [5]።

  6. በ QA ማብራሪያ - በአንድ ንዑስ ስብስብ ላይ ሁለት ማብራሪያዎች; አለመግባባቶችን መፍታት; መመሪያውን አዘምን.

  7. ቀላል የመነሻ መስመርን ያሰለጥኑ - መጀመሪያ ሎጂስቲክስ (ለምሳሌ ፣ መስመራዊ ሞዴሎች ወይም የታመቁ ትራንስፎርመሮች)። ነጥቡ ውሂቡን መሞከር እንጂ ሜዳሊያዎችን ማሸነፍ አይደለም።

  8. ስህተቶችን ይገምግሙ - የት አይሳካም እና ለምን; ሞዴሉን ብቻ ሳይሆን የውሂብ ስብስብን ያዘምኑ።

  9. ሰነድ - ትንሽ የውሂብ ሉህ፡ ምንጭ፣ የመለያ መመሪያ አገናኝ፣ መለያየት፣ የታወቁ ገደቦች፣ ፍቃድ [1]።

  10. እድሳትን ያቅዱ - አዲስ ምድቦች ፣ አዲስ ቃላቶች ፣ አዲስ ጎራዎች ይመጣሉ; አነስተኛ፣ ተደጋጋሚ ዝመናዎችን መርሐግብር [3]።

ከሺህ ትኩስ ከመውሰድ የበለጠ ከዚህ ዑደት የበለጠ ይማራሉ ። እንዲሁም, ምትኬዎችን ያስቀምጡ. አባክሽን።


በቡድን ውስጥ ሾልከው የሚመጡ የተለመዱ ወጥመዶች 🪤

  • የውሂብ መፍሰስ - መልሱ ወደ ባህሪያቱ ዘልቆ ይገባል (ለምሳሌ፣ ውጤቱን ለመተንበይ የድህረ-ጥራት መስኮችን በመጠቀም)። ማጭበርበር ይመስላል ምክንያቱም ነው.

  • ጥልቀት የሌለው ልዩነት - አንድ ጂኦግራፊ ወይም መሳሪያ እንደ ዓለም አቀፋዊ ይመስላል። ሙከራዎች የሴራው ጠመዝማዛን ያሳያሉ.

  • መለያ መንሸራተት - መመዘኛዎች በጊዜ ሂደት ይለወጣሉ ነገር ግን የመለያ መመሪያው አይለወጥም። የእርስዎን ኦንቶሎጂን ይመዝግቡ እና ያውጡ።

  • ያልተገለጹ ዓላማዎች - መጥፎ ትንበያን መግለፅ ካልቻሉ የእርስዎ ውሂብ እንዲሁ አይሆንም።

  • የተዘበራረቁ ፍቃዶች - አሁን መቧጨር፣ በኋላ ይቅርታ መጠየቅ፣ ስልት አይደለም።

  • ከመጠን በላይ መጨመር - እንደ ፕላስቲክ ፍራፍሬ ሼፍ ማሰልጠን ያሉ ከእውነታው የራቁ ቅርሶችን የሚያስተምር ሰው ሰራሽ መረጃ።


ስለ ሐረጉ ራሱ ፈጣን ተደጋጋሚ ጥያቄዎች ❓

  • "የ AI የውሂብ ስብስብ ምንድነው?" ፍቺ ነገር ብቻ? በአብዛኛው ነገር ግን ሞዴሎችን አስተማማኝ ስለሚያደርጉት አሰልቺ ቢት እንደሚጨነቁ የሚያሳይ ምልክት ነው።

  • ሁልጊዜ መለያዎች ያስፈልገኛል? ቁ. ቁጥጥር የማይደረግበት፣ በራስ የሚተዳደር እና አርኤል ማዋቀር ብዙ ጊዜ ግልጽ የሆኑ መለያዎችን ይዘላል፣ ነገር ግን መታከም አሁንም አስፈላጊ ነው።

  • ለማንኛውም የህዝብ ውሂብ መጠቀም እችላለሁ? ቁጥር፡ ፈቃዶችን፣ የመድረክ ውሎችን እና የግላዊነት ግዴታዎችን ያክብሩ [4]።

  • ትልቅ ወይስ የተሻለ? ሁለቱም ፣ በሐሳብ ደረጃ። መምረጥ ካለብህ መጀመሪያ የተሻለ ምረጥ።


የመጨረሻ አስተያየቶች - ምን ማድረግ ይችላሉ ቅጽበታዊ ገጽ እይታ 📌

የኤአይአይ መረጃ ስብስብ ምንድነው ብሎ ከጠየቀህ በለው ፡- ሰዎች በውጤቱ እንዲተማመኑ በአስተዳደር ውስጥ ተጠቅልሎ ሞዴልን የሚያስተምሩ እና የሚፈትኑ የሰነድ ስብስብ ምሳሌዎች ነው። በጣም ጥሩዎቹ የውሂብ ስብስቦች ተወካይ፣ በደንብ የተሰየሙ፣ በህጋዊ መንገድ ንጹህ እና ያለማቋረጥ የሚጠበቁ ናቸው። ቀሪው ዝርዝሮች-አስፈላጊ ዝርዝሮች ናቸው - ስለ መዋቅር፣ ክፍፍሎች እና ሞዴሎቹ ወደ ትራፊክ እንዳይዘዋወሩ ስለሚያደርጉ ስለእነዚያ ትናንሽ የጥበቃ መንገዶች። አንዳንድ ጊዜ ሂደቱ በተመን ሉሆች እንደ አትክልት ስራ ይሰማዋል; አንዳንድ ጊዜ እንደ መንጋ ፒክስሎች። ያም ሆነ ይህ በመረጃው ላይ ኢንቨስት ያድርጉ እና የእርስዎ ሞዴሎች ያነሰ እንግዳ ነገር ይሆናሉ። 🌱🤖


ማጣቀሻዎች

[1] የውሂብ ሉሆች ለዳታ ስብስቦች - Gebru et al., arXiv. አገናኝ
[2] የሞዴል ካርዶች ለሞዴል ሪፖርት ማድረግ - Mitchell et al., arXiv. አገናኝ
[3] NIST አርቲፊሻል ኢንተለጀንስ ስጋት አስተዳደር መዋቅር (AI RMF 1.0) . አገናኝ
[4] የዩኬ GDPR መመሪያ እና መርጃዎች - የመረጃ ኮሚሽነር ቢሮ (ICO)። አገናኝ
[5] ማቋረጫ ማረጋገጫ፡ የግምት አፈጻጸምን መገምገም - scikit-Learn User Guide. አገናኝ


የቅርብ ጊዜውን የ AI ኦፊሴላዊ የ AI ረዳት መደብር ያግኙ

ስለ እኛ

ወደ ጦማር ተመለስ