የ AI አፈፃፀምን እንዴት እንደሚለካ

የ AI አፈጻጸምን እንዴት መለካት ይቻላል?

በማስታወሻ ደብተር ውስጥ የተንቆጠቆጠ ነገር ግን በምርት ውስጥ የተደናቀፈ ሞዴል ከላኩ፣ ምስጢሩን አስቀድመው ያውቃሉ ፡ የ AI አፈፃፀምን እንዴት መለካት እንደሚቻል አንድ አስማታዊ መለኪያ አይደለም። ከእውነተኛው ዓለም ግቦች ጋር የተሳሰረ የፍተሻ ስርዓት ነው። ትክክለኛነት ደስ የሚል ነው። አስተማማኝነት፣ ደህንነት እና የንግድ ተፅእኖ የተሻሉ ናቸው። 

ከዚህ ጽሑፍ በኋላ ሊያነቧቸው የሚችሏቸው ጽሑፎች፡

🔗 እንዴት ከ AI ጋር መነጋገር እንደሚቻል
በተከታታይ ለተሻለ ውጤት ከ AI ጋር በብቃት የመግባቢያ መመሪያ።

🔗 AI የሚያነሳሳው ምንድን ነው?
የ AI ምላሾችን እና የውጤት ጥራትን እንዴት እንደሚቀርጹ ያብራራል።

🔗 የ AI ውሂብ መለያ ምንድ ነው?
ለስልጠና ሞዴሎች ትክክለኛ መለያዎችን በውሂብ የመመደብ አጠቃላይ እይታ።

🔗 የ AI ስነምግባር ምንድነው?
ኃላፊነት የሚሰማው AI ልማት እና ማሰማራትን የሚመሩ የስነምግባር መርሆዎች መግቢያ።


ጥሩ የ AI አፈፃፀም ምን ያደርጋል? ✅

አጭር ስሪት፡ ጥሩ የ AI አፈጻጸም ማለት ስርዓትዎ ጠቃሚ፣ እምነት የሚጣልበት እና በተዘበራረቀ ሁኔታ ሊደገም የሚችል፣ ሁኔታዎችን የሚቀይር ነው። በትክክል፡-

  • የተግባር ጥራት - ለትክክለኛ ምክንያቶች ትክክለኛ መልሶችን ያገኛል.

  • ልኬት - በራስ መተማመን ውጤቶች ከእውነታው ጋር ይሰለፋሉ፣ ስለዚህ ብልህ እርምጃ መውሰድ ይችላሉ።

  • ጥንካሬ - በተንሸራታች ፣ በጠርዝ ጉዳዮች እና በተቃዋሚ ፉዝ ስር ይይዛል።

  • ደህንነት እና ፍትሃዊነት - ጎጂ፣ አድልዎ ወይም ተገዢ አለመሆንን ያስወግዳል።

  • ቅልጥፍና - በቂ ፈጣን፣ በቂ ርካሽ እና በመጠኑ ለመስራት በቂ የተረጋጋ ነው።

  • የንግድ ተጽዕኖ - በእርግጥ እርስዎ ግድ ያለውን KPI ያንቀሳቅሳል.

መለኪያዎችን እና ስጋቶችን ለማስተካከል መደበኛ የማመሳከሪያ ነጥብ ከፈለጉ፣ የ NIST AI ስጋት አስተዳደር ማዕቀፍ ለታማኝ የስርዓት ግምገማ ጠንካራ የሰሜን ኮከብ ነው። [1]

 

የ AI አፈጻጸምን መለካት

የ AI አፈፃፀምን ለመለካት ከፍተኛ ደረጃ የምግብ አዘገጃጀት መመሪያ 🍳

በሦስት እርከኖች አስቡ :

  1. የተግባር መለኪያዎች - ለተግባር አይነት ትክክለኛነት: ምደባ, መመለሻ, ደረጃ, ማመንጨት, ቁጥጥር, ወዘተ.

  2. የሥርዓት መለኪያዎች - የቆይታ ጊዜ፣ የመተላለፊያ ጊዜ፣ በጥሪ ወጪ፣ የውድቀት ተመኖች፣ ተንሳፋፊ ማንቂያዎች፣ የሰአት ጊዜ SLAዎች።

  3. የውጤት መለኪያዎች - የሚፈልጉት የንግድ እና የተጠቃሚ ውጤቶች፡ ልወጣ፣ ማቆየት፣ የደህንነት አደጋዎች፣ በእጅ የሚገመገም ጭነት፣ የቲኬት መጠን።

ታላቅ የመለኪያ እቅድ ሆን ብሎ ሦስቱንም ያቀላቅላል። ያለበለዚያ ከማስጀመሪያ ሰሌዳው የማይወጣ ሮኬት ያገኛሉ።


ዋና መለኪያዎች በችግር አይነት - እና መቼ የትኛውን 🎯 መጠቀም እንዳለባቸው

1) ምደባ

  • ትክክለኛነት ፣ አስታውስ ፣ F1 - ቀን-አንድ ሶስት። F1 የትክክለኛነት እና የማስታወስ ሃርሞኒክ ነው; ክፍሎቹ ሚዛናዊ ካልሆኑ ወይም ወጪዎች ተመጣጣኝ ሲሆኑ ጠቃሚ ነው። [2]

  • ROC-AUC - የክላሲፋፋዮች ደፍ-አግኖስቲክ ደረጃ; አወንታዊዎች እምብዛም በማይሆኑበት ጊዜ, እንዲሁም PR-AUCን. [2]

  • የተመጣጠነ ትክክለኛነት - በክፍል ውስጥ የማስታወስ አማካይ; ለተዛባ መለያዎች ምቹ። [2]

Pitfall watch ፡ ትክክለኛነት ብቻውን ሚዛናዊ ባልሆነ ሚዛን አሳሳች ሊሆን ይችላል። 99% ተጠቃሚዎች ህጋዊ ከሆኑ፣ ዲዳ ሁሌም ህጋዊ ሞዴል 99% ያስመዘገበ ሲሆን ከምሳ በፊት የማጭበርበር ቡድንዎን ይወድቃል።

2) መመለሻ

  • ለሰው የሚነበብ ስህተት MAE ፤ ትላልቅ ስህተቶችን ለመቅጣት ሲፈልጉ RMSE ፤ ለልዩነት ተብራርቷል። ከዚያም የንፅህና አጠባበቅ ስርጭቶችን እና የቀሩ ቦታዎችን ያረጋግጡ። [2] (ባለድርሻ አካላት ስህተቱን በትክክል እንዲሰማቸው ለጎራ ተስማሚ የሆኑ ክፍሎችን ይጠቀሙ።)

3) ደረጃ መስጠት, መልሶ ማግኘት, ምክሮች

  • nDCG - ስለ አቀማመጥ እና ደረጃ የተሰጠው ተገቢነት ያስባል; ለፍለጋ ጥራት መደበኛ.

  • MRR - የመጀመሪያው ተዛማጅ ንጥል በምን ያህል ፍጥነት እንደሚታይ ላይ ያተኩራል (ለ"አንድ ጥሩ መልስ ለማግኘት" ተግባራት በጣም ጥሩ)።
    (የተግባር ማጣቀሻዎች እና የተሰሩ ምሳሌዎች በዋና ዋና የሜትሪክ ቤተ-መጻሕፍት ውስጥ ይገኛሉ።) [2]

4) የጽሑፍ ማመንጨት እና ማጠቃለያ

  • BLEU እና ROUGE - ክላሲክ መደራረብ መለኪያዎች; እንደ መነሻዎች ጠቃሚ.

  • በመክተት ላይ የተመሰረቱ መለኪያዎች (ለምሳሌ፣ BERTScore) ብዙውን ጊዜ ከሰው ፍርድ ጋር ይዛመዳሉ። ሁልጊዜ ለቅጥ፣ ለታማኝነት እና ለደህንነት ሲባል ከሰዎች ደረጃዎች ጋር ያጣምሩ። [4]

5) የጥያቄ መልስ

  • ትክክለኛ ተዛማጅ እና ማስመሰያ ደረጃ F1 Extract QA የተለመደ ነው; ምላሾች ምንጮችን መጥቀስ ካለባቸው፣ እንዲሁም መሬቶችን (የመልስ ድጋፍ ማረጋገጫዎችን) ይለኩ።


ልኬት፣ በራስ መተማመን እና የብራይየር ሌንሶች 🎚️

የመተማመን ውጤቶች ብዙ ስርዓቶች በጸጥታ የሚዋሹበት ነው። ops ገደቦችን፣ የሰዎችን መንገድ ወይም የዋጋ ስጋትን እንዲያዘጋጁ እውነታውን የሚያንፀባርቁ ዕድሎችን ይፈልጋሉ።

  • የመለኪያ ኩርባዎች - የተገመተውን ዕድል ከተጨባጭ ድግግሞሽ ጋር በዓይነ ሕሊናህ ተመልከት።

  • አጭር ነጥብ - ለዕውነተኛ ትክክለኛነት ትክክለኛ የውጤት አሰጣጥ ደንብ፤ ዝቅተኛው የተሻለ ነው። በተለይ ስለ ደረጃ አሰጣጥ ብቻ ሳይሆን ስለ ዕድል ጥራት ሲያስቡ ጠቃሚ ነው ። [3]

የመስክ ማስታወሻ ፡ ትንሽ “የከፋ” F1 ነገር ግን በጣም የተሻለ መለኪያ በእጅጉ ሊያሻሽል ይችላል - ምክንያቱም ሰዎች በመጨረሻ ውጤቶቹን ማመን ይችላሉ።


ደህንነት፣ አድልዎ እና ፍትሃዊነት - አስፈላጊ የሆነውን ይለኩ 🛡️⚖️

ስርዓቱ በአጠቃላይ ትክክለኛ ሊሆን ይችላል እና አሁንም የተወሰኑ ቡድኖችን ይጎዳል።ይከታተሉ የቡድን መለኪያዎችን እና የፍትሃዊነት መስፈርቶችን

  • የስነሕዝብ እኩልነት - በቡድኖች ውስጥ እኩል አዎንታዊ ተመኖች።

  • እኩል ዕድሎች / እኩል ዕድሎች - በቡድኖች መካከል እኩል የስህተት መጠኖች ወይም እውነተኛ-አዎንታዊ መጠኖች፤ እነዚህን እንደ አንድ-ምት የማለፊያ-ውድቀት ማህተሞች ሳይሆን የንግድ-ኦፍ ቅናሾችን ለመለየት እና ለማስተዳደር ይጠቀሙባቸው። ​​[5]

ተግባራዊ ጠቃሚ ምክር፡ ዋና መለኪያዎችን በቁልፍ ባሕሪያት በሚቆርጡ ዳሽቦርዶች ይጀምሩ፣ ከዚያም ፖሊሲዎችዎ እንደሚፈልጉ የተወሰኑ የፍትሃዊነት መለኪያዎችን ያክሉ። ጫጫታ ቢመስልም ከአጋጣሚ ይልቅ ርካሽ ነው።


LLMs እና RAG - በትክክል የሚሰራ 📚🔍 የመለኪያ መጫወቻ መጽሐፍ

አመንጪ ሲስተሞችን መለካት... ስኩዊር ነው። ይህን አድርግ፡-

  1. ውጤቶችን ይግለጹ ፡ ትክክለኛነት፣ አጋዥነት፣ ጉዳት አልባነት፣ የአጻጻፍ ዘይቤን መከተል፣ በብራንድ ቃና ላይ፣ የጥቅስ መሰረት ማድረግ፣ የእምቢታ ጥራት።

  2. የመነሻ መስመር ግምገማዎችን በጠንካራ ማዕቀፎች (ለምሳሌ፣ በእርስዎ ቁልል ውስጥ ያሉ የግምገማ መሳሪያዎች) እና በመረጃ ስብስቦችዎ እንዲዘጋጁ ያድርጓቸው።

  3. ለጤናማነት[4] የትርጉም መለኪያዎችን (በመክተት ላይ የተመሰረተ) እና የተደራረቡ መለኪያዎችን (BLEU/ROUGE) ያክሉ

  4. የመሳሪያ መሬት መጣል ፡ የመልሶ ማግኛ ፍጥነት፣ የአውድ ትክክለኛነት/አስታውስ፣ የመልስ ድጋፍ መደራረብ።

  5. የሰው ግምገማ በስምምነት - የግምገማ ወጥነትን (ለምሳሌ፣ የኮሄን κ ወይም የፍሌይስ κ) ይለኩ ስለዚህ መለያዎችዎ ስሜት እንዳይኖራቸው።

ጉርሻ ፡ የሎግ መዘግየት ፐርሰንታይሎች እና ማስመሰያ ወይም ለእያንዳንዱ ተግባር ወጪን ያሰሉ። በሚቀጥለው ማክሰኞ የሚመጣውን የግጥም መልስ ማንም አይወድም።


የንፅፅር ሠንጠረዥ - የ AI አፈፃፀምን ለመለካት የሚረዱ መሳሪያዎች 🛠️📊

(አዎ ሆን ተብሎ ትንሽ የተመሰቃቀለ ነው - እውነተኛ ማስታወሻዎች የተመሰቃቀሉ ናቸው።)

መሳሪያ ምርጥ ታዳሚዎች ዋጋ ለምን እንደሚሰራ - በፍጥነት መውሰድ
scikit-ተማር መለኪያዎች ML ባለሙያዎች ፍርይ ቀኖናዊ አተገባበር ለምድብ, እንደገና መመለስ, ደረጃ አሰጣጥ; ወደ ፈተናዎች ለመጋገር ቀላል. [2]
MLflow ግምገማ / GenAI የውሂብ ሳይንቲስቶች, MLOps ነፃ + የተከፈለ የተማከለ ሩጫዎች፣ አውቶሜትድ መለኪያዎች፣ የኤልኤልኤም ዳኞች፣ ብጁ አስመጪዎች; የምዝግብ ማስታወሻዎች ቅርሶችን በንጽሕና.
በግልጽ ይታያል ዳሽቦርዶችን በፍጥነት የሚፈልጉ ቡድኖች OSS + ደመና 100+ ሜትሪክስ፣ ተንሸራታች እና የጥራት ሪፖርቶች፣ የክትትል መንጠቆዎች - ቆንጆ እይታዎች በቁንጥጫ።
ክብደቶች እና አድልዎዎች ሙከራ-ከባድ ኦርጋኖች ነፃ ደረጃ ጎን ለጎን ማነፃፀር፣ የኢቫል ዳታ ስብስቦች፣ ዳኞች; ጠረጴዛዎች እና ዱካዎች ንጹህ ናቸው.
ላንግስሚዝ LLM መተግበሪያ ግንበኞች የተከፈለ እያንዳንዱን እርምጃ ይከታተሉ፣ የሰውን ግምገማ ከደንብ ወይም ከኤልኤልኤም ገምጋሚዎች ጋር ያዋህዱ። ለ RAG በጣም ጥሩ።
TruLens ክፍት ምንጭ LLM ኢቫል አፍቃሪዎች ኦኤስኤስ የግብረመልስ ተግባራት መርዛማነት, መሠረተ ቢስነት, ተገቢነት; በማንኛውም ቦታ ማዋሃድ.
ታላቅ የሚጠበቁ የውሂብ ጥራት-የመጀመሪያዎቹ ኦርጋኖች ኦኤስኤስ በውሂብ ላይ የሚጠበቁ ነገሮችን መደበኛ አድርግ - ምክንያቱም መጥፎ ውሂብ ለማንኛውም ሜትሪክን ያበላሻል።
ጥልቅ ምርመራዎች ሙከራ እና CI / ሲዲ ለ ML OSS + ደመና ለውሂብ መንሸራተት፣ የሞዴል ጉዳዮች እና ክትትል ባትሪዎች ያካተተ ሙከራ፤ ጥሩ መከላከያዎች.

ዋጋዎች ይለወጣሉ - ሰነዶቹን ያረጋግጡ. እና አዎ፣ መሳሪያው ፖሊስ ሳይታይ እነዚህን መቀላቀል ይችላሉ።


ገደቦች፣ ወጪዎች እና የውሳኔ ኩርባዎች - ሚስጥራዊው ሾርባ 🧪

እንግዳ ነገር ግን እውነት ነው፡ ሁለት ተመሳሳይ ROC-AUC ያላቸው ሞዴሎች እንደ ገደብዎ እና የዋጋ ጥምርታዎ የሚለያዩ የንግድ ዋጋ ሊኖራቸው ይችላል ።

ለመሥራት ፈጣን ሉህ፡-

  • የሐሰት አዎንታዊ እና የውሸት አሉታዊ ዋጋን በገንዘብ ወይም በጊዜ ያዘጋጁ።

  • ገደቦችን ይጥረጉ እና የሚጠበቀውን ወጪ በ1k ውሳኔ ያሰሉ።

  • የሚጠበቀውን ዝቅተኛውን የወጪ ገደብ ይምረጡ ፣ ከዚያ በክትትል ይዝጉት።

አወንታዊ ነገሮች እምብዛም በማይሆኑበት ጊዜ የPR ኩርባዎችን፣ የ ROC ኩርባዎችን ለአጠቃላይ ቅርፅ እና ውሳኔዎች በአጋጣሚዎች ላይ ሲመሰረቱ የመለኪያ ኩርባዎችን ይጠቀሙ። [2][3]

አነስተኛ መያዣ ፡- ከጠንካራ ገደብ ወደ ደረጃ ያለው ራውቲንግ (ለምሳሌ፣ “ራስ-መፍታት”፣ “የሰው-ግምገማ”፣ “እድገት”) ከተስተካከሉ የውጤት ባንዶች ጋር የተሳሰረ መጠነኛ F1 ነገር ግን እጅግ በጣም ጥሩ የካሊብሬሽን መቀነሻ በእጅ የሚቀየር የድጋፍ-ቲኬት ትራይጅ ሞዴል።


የመስመር ላይ ክትትል፣ መንሸራተት እና ማንቂያ 🚨

ከመስመር ውጭ ግምገማዎች መጀመሪያ እንጂ መጨረሻ አይደሉም። በምርት ላይ:

  • የግቤት ተንሸራታችየውጤት ተንሸራታች እና የአፈጻጸም መበላሸትን በክፍል ይከታተሉ ።

  • የጥበቃ ሀዲድ ቼኮችን ያቀናብሩ - ከፍተኛ የቅዠት መጠን፣ የመርዛማነት ገደቦች፣ የፍትሃዊነት ዴልታዎች።

  • የካናሪ ዳሽቦርዶችን ለp95 መዘግየት፣ ጊዜ ማብቂያዎች እና በጥያቄ ዋጋ ይጨምሩ ።

  • ይህንን ለማፋጠን በዓላማ የተሰሩ ቤተ-መጻሕፍትን ተጠቀም፤ ተንሸራታች፣ ጥራት እና ክትትል ቅድመ ሁኔታዎችን ከሳጥኑ ውስጥ ያቀርባሉ።

ትናንሽ ጉድለቶች ያሉት ዘይቤ፡- ሞዴልህን እንደ ሶርዶው ጀማሪ አስብ - አንድ ጊዜ ብቻ አትጋግርም እና አትሄድም፤ ትመግበዋለህ፣ ትመለከታለህ፣ ታሸታል፣ እና አንዳንድ ጊዜ እንደገና ትጀምራለህ።


የማይፈርስ የሰው ግምገማ 🍪

ሰዎች ውጤት ሲሰጡ፣ ሂደቱ እርስዎ ከሚያስቡት በላይ አስፈላጊ ነው።

  • ማለፊያ vs borderline vs ውድቀት ምሳሌዎች ጋር ጥብቅ ደንቦችን ጻፍ .

  • በሚችሉበት ጊዜ የዘፈቀደ እና ዓይነ ስውር ናሙናዎችን ያድርጉ።

  • የደረጃ-ደረጃ ስምምነትን ይለኩ (ለምሳሌ፣ የኮሄን κ ለሁለት ገምጋሚዎች፣ ለብዙዎች ፍሌይስ κ) እና ስምምነቱ ከጠፋ ደንቦቹን ያድሱ።

ይህ የሰዎች መለያዎችዎ በስሜት ወይም በቡና አቅርቦት እንዳይንሸራተቱ ያደርጋቸዋል።


ጥልቅ ዳይቪንግ ፡ በ RAG ውስጥ ለኤልኤልኤምዎች የAI አፈፃፀምን እንዴት መለካት እንደሚቻል 🧩

  • የማውጣት ጥራት - recall@k, precision@k, nDCG; የወርቅ እውነታዎች ሽፋን. [2]

  • ታማኝነትን መልሱ - ቼኮችን ጥቀስ እና አረጋግጥ፣ መሬት ላይ ያሉ ውጤቶች፣ የተቃዋሚ መመርመሪያዎች።

  • የተጠቃሚ እርካታ - አውራ ጣት ፣ የተግባር ማጠናቀቅ ፣ ከተጠቆሙ ረቂቆች ርቀትን ያርትዑ።

  • ደህንነት - መርዛማነት, PII መፍሰስ, ፖሊሲን ማክበር.

  • ወጪ እና መዘግየት - ቶከኖች፣ የመሸጎጫ ውጤቶች፣ p95 እና p99 መዘግየት።

እነዚህን ከንግድ ድርጊቶች ጋር እሰራቸው፡ መሠረተ ቢስነት ከመስመር በታች ከገባ፣ ወደ ጥብቅ ሁነታ ወይም የሰው ግምገማ ራስ-መንገድ።


ዛሬ ለመጀመር ቀላል የመጫወቻ መጽሐፍ 🪄

  1. ሥራውን ይግለጹ - አንድ ዓረፍተ ነገር ይጻፉ: AI ምን ማድረግ እንዳለበት እና ለማን.

  2. ከ2-3 የተግባር መለኪያዎችን ይምረጡ - በተጨማሪም መለኪያ እና ቢያንስ አንድ የፍትሃዊነት ክፍል። [2][3][5]

  3. የወጪ ገደቦችን ይወስኑ - አይገምቱ።

  4. አነስተኛ የግምገማ ስብስብ ይፍጠሩ - የምርት ድብልቅን የሚያንፀባርቁ ከ100-500 የተሰየሙ ምሳሌዎች።

  5. እያንዳንዱ ለውጥ ተመሳሳይ ፍተሻዎችን እንዲያካሂድ የእርስዎን ግምገማዎች-የሽቦ ግምገማ/ክትትል ወደ CI ሰር ያድርጉ

  6. በፕሮድ ውስጥ ይቆጣጠሩ - ተንሸራታች፣ መዘግየት፣ ወጪ፣ የክስተቶች ባንዲራዎች።

  7. በየወሩ ይገምግሙ-ኢሽ - ማንም የማይጠቀመውን የፕሪም መለኪያዎች; እውነተኛ ጥያቄዎችን የሚመልሱትን ይጨምሩ።

  8. የሰነድ ውሳኔዎች - ቡድንዎ በትክክል የሚያነበው ህያው የውጤት ካርድ።

አዎ በትክክል ያ ነው። እና ይሰራል።


የተለመዱ ጎትቻዎች እና እንዴት እነሱን ማስወገድ እንደሚቻል 🕳️🐇

  • ለአንድ ነጠላ መለኪያ ከመጠን በላይ መገጣጠም - ከውሳኔ አውድ ጋር የሚዛመድ[1][2] የሜትሪክ ቅርጫት ይጠቀሙ።

  • መለካትን ችላ ማለት - ያለ መለካት በራስ መተማመን ብቻ ነው። [3]

  • መለያየት የለም - ሁልጊዜ በተጠቃሚ ቡድኖች ፣ ጂኦግራፊ ፣ መሣሪያ ፣ ቋንቋ ይቁረጡ። [5]

  • ያልተገለጹ ወጪዎች - ስህተቶችን ዋጋ ካላወጡ፣ የተሳሳተውን ገደብ ይመርጣሉ።

  • የሰው ኢቫል ተንሸራታች - ስምምነትን መለካት፣ ቃላቶችን ማደስ፣ ገምጋሚዎችን እንደገና ማሰልጠን።

  • ምንም የደህንነት መሳሪያ የለም - ፍትሃዊነትን፣ መርዛማነትን እና የፖሊሲ ፍተሻዎችን አሁን ይጨምሩ እንጂ በኋላ አይደለም። [1][5]


የመጣህበት ሐረግ፡ የ AI አፈጻጸምን እንዴት እንደሚለካ - በጣም ረጅም፣ አላነበብኩትም 🧾

  • ግልጽ በሆኑ ውጤቶች ይጀምሩ ፣ ከዚያ ተግባርንስርዓትን እና የንግድ መለኪያዎችን ቁልል ያድርጉ። [1]

  • ለሥራው ትክክለኛውን መለኪያዎች ይጠቀሙ - F1 እና ROC-AUC ለምድብ; nDCG/MRR ለደረጃ; መደራረብ + የትርጉም መለኪያዎች ለትውልድ (ከሰዎች ጋር የተጣመረ)። [2][4]

  • ዕድሎችህን አስል እና ስህተቶችህን ጣራ ለመምረጥ ዋጋ ስጥ። [2][3]

  • በቡድን ቁርጥራጭ የፍትሃዊነት ፍተሻዎችን ያክሉ እና ግብይቶችን በግልፅ ያስተዳድሩ። [5]

  • ያለ ፍርሃት መደጋገም እንዲችሉ በራስ ሰር ይገመግማሉ እና ይቆጣጠሩ

እንዴት እንደሆነ ታውቃለህ - አስፈላጊ የሆነውን ለካ፣ አለዚያ የማያደርገውን ነገር ማሻሻል ትችላለህ።


ማጣቀሻዎች

[1] NIST። የAI ስጋት አስተዳደር ማዕቀፍ (AI RMF)። ተጨማሪ ያንብቡ
[2] scikit-learn። የሞዴል ግምገማ፡ የትንበያዎችን ጥራት መለካት (የተጠቃሚ መመሪያ)። ተጨማሪ ያንብቡ
[3] scikit-learn። የፕሮባቢሊቲ መለካት (የመለኪያ ኩርባዎች፣ የብሪየር ነጥብ)። ተጨማሪ ያንብቡ
[4] Papineni et al. (2002)። BLEU፡ የማሽን ትርጉም በራስ-ሰር ለመገምገም የሚያስችል ዘዴ። ACL። ተጨማሪ ያንብቡ
[5] Hardt፣ Price፣ Srebro (2016)። በክትትል ትምህርት ውስጥ የእድል እኩልነት። NeurIPS። ተጨማሪ ያንብቡ

የቅርብ ጊዜውን የ AI ኦፊሴላዊ የ AI ረዳት መደብር ያግኙ

ስለ እኛ

ወደ ጦማር ተመለስ