የ AI ሞዴሎችን እንዴት መገምገም እንደሚቻል

የ AI ሞዴሎችን እንዴት መገምገም እንደሚቻል

አጭር መልስ ፡ ለአጠቃቀም ጉዳይዎ "ጥሩ" ምን እንደሚመስል ይግለጹ፣ ከዚያም በተወካዮች፣ በተዘረጉ ጥያቄዎች እና በጠርዝ መያዣዎች ይሞክሩ። አውቶማቲክ መለኪያዎችን ከሰው የሩብሪክ ውጤት ጋር፣ ከተቃዋሚ ደህንነት እና ፈጣን መርፌ ፍተሻዎች ጋር ያጣምሩ። የወጪ ወይም የዘገየ ገደቦች አስገዳጅ ከሆኑ፣ ሞዴሎችን በወጣው ፓውንድ የተግባር ስኬት እና p95/p99 የምላሽ ጊዜዎች ያወዳድሩ።

ቁልፍ ነጥቦች፡

ተጠያቂነት ፡- ማንኛውንም ጥያቄ ወይም የሞዴል ለውጥ ካደረገ በኋላ ባለቤቶችን ግልጽ ያድርጉ፣ የስሪት ምዝግብ ማስታወሻዎችን ያስቀምጡ እና ኢቫሎችን እንደገና ያሂዱ።

ግልጽነት ፡- የስኬት መስፈርቶችን፣ ገደቦችን እና የውድቀት ወጪዎችን ከመሰብሰብዎ በፊት ይፃፉ።

ኦዲት ማድረግ ፡- ተደጋጋሚ የሙከራ ስብስቦችን፣ የተሰየሙ የውሂብ ስብስቦችን እና ክትትል የሚደረግባቸውን የp95/p99 መዘግየት መለኪያዎችን ማቆየት።

ተፎካካሪነት ፡- ለተከራከሩ ውጤቶች የሰው ግምገማ መርሆችን እና የተወሰነ የይግባኝ መንገድን ይጠቀሙ።

አላግባብ መጠቀምን የመቋቋም አቅም ፡- ቀይ-ቡድን መርፌ፣ ስሜታዊ ርዕሶች እና ተጠቃሚዎችን ለመጠበቅ ከልክ በላይ እምቢ ማለት።

ለአንድ ምርት፣ ለምርምር ፕሮጀክት ወይም ለውስጣዊ መሳሪያ ሞዴል እየመረጡ ከሆነ፣ “ብልጥ ይመስላል” ብለው መላክ አይችሉም ( የ OpenAI evals መመሪያን እና የ NIST AI RMF 1.0 ን )። ሹካ እንዴት ማይክሮዌቭ ውስጥ እንደሚገባ በራስ መተማመን የሚያብራራ የቻትቦት አይነት የሚያገኙት በዚህ መንገድ ነው። 😬

የ AI ሞዴሎችን ኢንፎግራፊክ እንዴት መገምገም እንደሚቻል

ከዚህ ጽሑፍ በኋላ ሊያነቧቸው የሚችሏቸው ጽሑፎች፡

🔗 የ AI የወደፊት ዕጣ ፈንታ፡- የሚቀጥሉትን አስርት ዓመታት የሚቀርጹ አዝማሚያዎች
ወደፊት ልንጠብቃቸው የሚገቡ ቁልፍ ፈጠራዎች፣ የሥራ ተጽዕኖዎች እና ሥነ ምግባር።

🔗 ለጀማሪዎች በጄኔሬቲቭ AI ውስጥ የመሠረት ሞዴሎች ተብራርተዋል፤
ምን እንደሆኑ፣ ምን ያህል እንደሰለጠኑ እና ለምን አስፈላጊ እንደሆኑ ይወቁ።

🔗 የ AI በአካባቢ እና በኢነርጂ አጠቃቀም ላይ እንዴት ተጽዕኖ እንደሚያሳድር
ልቀትን፣ የኤሌክትሪክ ፍላጎትን እና የእግር አሻራን ለመቀነስ መንገዶችን ያስሱ።

🔗 ዛሬ ለተሻሉ ምስሎች የAI ማሳደጊያ እንዴት እንደሚሰራ
ሞዴሎች ዝርዝር ነገሮችን እንዴት እንደሚጨምሩ፣ ጫጫታዎችን እንዴት እንደሚያስወግዱ እና በንጽህና እንዴት እንደሚያሰፉ ይመልከቱ።


1) “ጥሩ” የሚለውን ቃል መግለፅ (እንደዚያ ይወሰናል፣ እና ያ ችግር የለውም) 🎯

ማንኛውንም ግምገማ ከማስኬድዎ በፊት ስኬት ምን እንደሚመስል ይወስኑ። አለበለዚያ ሁሉንም ነገር ይለካሉ እና ምንም ነገር አይማሩም። የኬክ ውድድርን ለመፍረድ የቴፕ መለኪያ ማምጣት ነው። በእርግጥ ቁጥሮችን ያገኛሉ፣ ግን ብዙ አይነግሩዎትም 😅

ግልጽ አድርግ፦

  • የተጠቃሚ ግብ ፡ ማጠቃለያ፣ ፍለጋ፣ ጽሑፍ፣ ምክንያት፣ እውነታ ማውጣት

  • የውድቀት ወጪ ፡ የተሳሳተ የፊልም ምክረ ሃሳብ አስቂኝ ነው፤ የተሳሳተ የሕክምና መመሪያ… አስቂኝ አይደለም (የአደጋ መቅረጽ ፡ NIST AI RMF 1.0 )።

  • የአሂድ ጊዜ አካባቢ ፡ በመሳሪያ ላይ፣ በደመና ውስጥ፣ ከፋየርዎል ጀርባ፣ በተቆጣጠረ አካባቢ

  • ዋና ዋና ገደቦች ፡ መዘግየት፣ በአንድ ጥያቄ የሚከፈል ዋጋ፣ ግላዊነት፣ ማስረዳት፣ ባለብዙ ቋንቋ ድጋፍ፣ የድምፅ ቁጥጥር

በአንድ ሥራ “ምርጥ” የሆነ ሞዴል በሌላ ሥራ ላይ አደጋ ሊያስከትል ይችላል። ይህ እርስ በርሱ የሚጋጭ ሳይሆን እውነታው ነው። 🙂


2) ጠንካራ የ AI ሞዴል ግምገማ ማዕቀፍ ምን ይመስላል 🧰

አዎ፣ ሰዎች የሚዘለሉት ይህ ነው። መለኪያ (benchmark) ይይዛሉ፣ አንድ ጊዜ ያሂዱታል፣ እና አንድ ቀን ብለው ይጠሩታል። ጠንካራ የግምገማ ማዕቀፍ ጥቂት ወጥነት ያላቸው ባህሪያት አሉት (ተግባራዊ የመሳሪያ አጠቃቀም ምሳሌዎች ፡ የOpenAI Evals / OpenAI evals guide ):

  • ሊደገም የሚችል - በሚቀጥለው ሳምንት እንደገና ማስኬድ እና ንጽጽሮችን ማመን ይችላሉ

  • ተወካይ - ትክክለኛ ተጠቃሚዎችዎን እና ተግባሮችዎን ያንፀባርቃል (ተራ ነገሮችን ብቻ ሳይሆን)

  • ባለብዙ ሽፋን - አውቶማቲክ መለኪያዎችን + የሰው ግምገማ + የተቃዋሚ ሙከራዎችን ያጣምራል

  • ተግባራዊ ሊሆን የሚችል - ውጤቶቹ ምን ማስተካከል እንዳለቦት ይነግሩዎታል፣ “ውጤቱ ቀንሷል” ብቻ ሳይሆን

  • የመበሳጨት መቋቋም የሚችል - "ለፈተናው ማስተማር" ወይም ድንገተኛ መፍሰስን ያስወግዳል

  • ወጪን ማወቅ - ግምገማ ራሱ ኪሳራ ውስጥ ሊያስገባህ አይገባም (ህመምን ካልወደድክ በስተቀር)

ግምገማዎ “እሺ፣ ግን ይህንን ከፕሮዳክሽን ጋር አዛምድ” የሚል ተጠራጣሪ የቡድን ጓደኛዎን መቋቋም ካልቻለ እስካሁን አልተጠናቀቀም። የሁኔታው ፍተሻ ይህ ነው።.


3) የአጠቃቀም መያዣ ቁርጥራጮችን በመጀመር የAI ሞዴሎችን እንዴት መገምገም እንደሚቻል 🍰

ብዙ ጊዜ የሚቆጥብ አንድ ዘዴ ይኸውና ፡ የአጠቃቀም መያዣውን ወደ ቁርጥራጮች ይከፋፍሉት

"ሞዴሉን መገምገም" ከማለት ይልቅ የሚከተለውን ያድርጉ፦

  • የፍላጎት ግንዛቤ (ተጠቃሚው የሚፈልገውን ያገኛል?)

  • መልሶ ማግኘት ወይም አውድ መጠቀም (የተሰጠውን መረጃ በትክክል ይጠቀማል?)

  • አመክንዮ / ባለብዙ ደረጃ ተግባራት (በደረጃዎች መካከል ወጥነት ያለው ሆኖ ይቆያል?)

  • ቅርጸት እና መዋቅር (መመሪያውን ይከተላል)

  • የደህንነት እና የፖሊሲ አሰላለፍ (ደህንነቱ የተጠበቀ ይዘትን ያስወግዳል፤ NIST AI RMF 1.0 ን )

  • ቃና እና የምርት ስም ድምጽ (እሱ እንዲሰማ የሚፈልጉት ይመስላል?)

ይህ "የAI ሞዴሎችን እንዴት መገምገም እንደሚቻል" እንደ አንድ ትልቅ ፈተና ሳይሆን እንደ ዒላማ የተደረጉ የፈተናዎች ስብስብ እንዲሰማ ያደርገዋል። የፈተና ጥያቄዎች የሚያበሳጩ ናቸው፣ ግን በቀላሉ የሚቻሉ ናቸው። 😄


4) ከመስመር ውጭ የግምገማ መሰረታዊ ነገሮች - የሙከራ ስብስቦች፣ መለያዎች እና አስፈላጊ የሆኑ ማራኪ ዝርዝሮች 📦

ከመስመር ውጭ ኢቫል ተጠቃሚዎች ማንኛውንም ነገር ከመንካታቸው በፊት ቁጥጥር የሚደረግባቸው ሙከራዎችን የሚያደርጉበት ቦታ ነው (የስራ ፍሰት ቅጦች ፡ OpenAI ኢቫልስ )።

በእውነት የእርስዎ የሆነ የሙከራ ስብስብ ይገንቡ ወይም ይሰብስቡ

ጥሩ የሙከራ ስብስብ ብዙውን ጊዜ የሚከተሉትን ያካትታል:

  • ወርቃማ ምሳሌዎች ፡- በኩራት የሚያስተላልፏቸው ተስማሚ ውጤቶች

  • የጠርዝ ጉዳዮች ፡ አሻሚ ጥያቄዎች፣ ያልተስተካከሉ ግብዓቶች፣ ያልተጠበቁ ቅርጸቶች

  • የውድቀት ሁነታ ምርመራዎች ፡ ቅዠቶችን ወይም ደህንነታቸው ያልተጠበቀ ምላሾችን የሚፈትሹ ጥያቄዎች (የአደጋ ሙከራ ፍሬም ፡ NIST AI RMF 1.0 )

  • የብዝሃነት ሽፋን ፡ የተለያዩ የተጠቃሚ ክህሎት ደረጃዎች፣ ቀበሌኛዎች፣ ቋንቋዎች፣ ጎራዎች

በ"ንፁህ" ጥያቄዎች ብቻ ከሞከሩ፣ ሞዴሉ አስደናቂ ይመስላል። ከዚያም ተጠቃሚዎችዎ የፊደል አጻጻፍ፣ ግማሽ ዓረፍተ ነገሮች እና የቁጣ-ጠቅታ ኃይል ይዘው ይመጣሉ። ወደ እውነታው እንኳን በደህና መጡ።.

የመለያ ምርጫዎች (በተጨማሪም፦ የጥብቅነት ደረጃዎች)

ውጤቶችን እንደሚከተለው መሰየም ይችላሉ፦

  • ሁለትዮሽ : ማለፍ/መውደቅ (ፈጣን፣ ከባድ)

  • ተራ ፡ 1-5 የጥራት ነጥብ (የተለየ፣ ተጨባጭ)

  • ባለብዙ ባህሪ ፡ ትክክለኛነት፣ ሙሉነት፣ ቃና፣ የጥቅስ አጠቃቀም፣ ወዘተ (ምርጥ፣ ቀርፋፋ)

ባለብዙ ባህሪ ለብዙ ቡድኖች አስደሳች ቦታ ነው። ምግብን እንደ መቅመስ እና ጨዋማነትን ከሸካራነት ለይተው እንደመገምገም ነው። አለበለዚያ “ጥሩ” ብለው ትከሻዎን ትከሻዎን ትከሻዎን ብቻ ይመልሱ።.


5) የማይዋሹ መለኪያዎች - እና እንደዚህ አይነት መለኪያዎች 📊😅

መለኪያዎች ዋጋ ያላቸው ናቸው… ነገር ግን የሚያብረቀርቅ ቦምብም ሊሆኑ ይችላሉ። በሁሉም ቦታ የሚያብረቀርቁ እና ለማጽዳት አስቸጋሪ ናቸው።.

የተለመዱ የሜትሪክ ቤተሰቦች

  • ትክክለኛነት / ትክክለኛ ተዛማጅነት ፡ ለማውጣት፣ ለመመደብ፣ እና ለተዋቀሩ ተግባራት በጣም ጥሩ

  • F1 / ትክክለኛነት / አስታውስ : የሆነ ነገር ሲጠፋ ጠቃሚ ነው ከተጨማሪ ጫጫታ የባሰ ነው (ትርጓሜዎች ፡ scikit-learn precision/recall/F-score )

  • የBLU / ROUGE ቅጥ መደራረብ ፡ ለማጠቃለያ ስራዎች ተስማሚ ነው፣ ብዙ ጊዜ አሳሳች ነው (ኦሪጅናል መለኪያዎች ፡ BLUU እና ROUGE )

  • ተመሳሳይነትን ማካተት፡ ለትርጉም ማዛመድ ጠቃሚ፣ የተሳሳቱ ግን ተመሳሳይ መልሶችን ሊሸልም ይችላል

  • የተግባር ስኬት መጠን ፡- በጥሩ ሁኔታ ሲገለጽ “ተጠቃሚው የሚፈልገውን አግኝቷል?” የወርቅ ደረጃ

  • የገደብ ተገዢነት ፡- ቅርጸትን፣ ርዝመትን፣ የJSON ትክክለኛነትን፣ የንድፍ ተገዢነትን ይከተላል

ቁልፍ ነጥብ

ተግባርዎ ክፍት ከሆነ (መጻፍ፣ ማመዛዘን፣ የውይይት ድጋፍ)፣ የአንድ ቁጥር መለኪያዎች… ሊወዛወዙ ይችላሉ። ትርጉም የለሽ አይደለም፣ የሚወዛወዝ ብቻ። የፈጠራ ችሎታን በገዢ መለካት ይቻላል፣ ግን ሲያደርጉት ሞኝነት ይሰማዎታል። (እንዲሁም ምናልባት ዓይንዎን ያወጣሉ።)

ስለዚህ፡ መለኪያዎችን ተጠቀም፣ ነገር ግን ከሰው ግምገማ እና ከእውነተኛ የተግባር ውጤቶች ጋር አቆራኝታቸው (በLLM ላይ የተመሰረተ የግምገማ ውይይት + ማስጠንቀቂያዎች ምሳሌ ፡ G-Eval )።


6) የንፅፅር ሠንጠረዥ - ከፍተኛ የግምገማ አማራጮች (ከመጥፎ ነገሮች ጋር፣ ምክንያቱም ሕይወት አንዳንድ ችግሮች አሏት) 🧾✨

የግምገማ አቀራረቦችን ተግባራዊ ምናሌ እነሆ። ይቀላቅሉ እና ያዛምዱ። አብዛኛዎቹ ቡድኖች ይህን ያደርጋሉ።.

መሣሪያ / ዘዴ ታዳሚዎች ዋጋ ለምን እንደሚሰራ
በእጅ የተሰራ የፈተና ስብስብ ምርት + ኢንጂ $ በጣም ኢላማ የተደረገበት፣ ሪግሬሽኖችን በፍጥነት ይይዛል - ግን ለዘላለም ማቆየት አለብዎት 🙃 (የጀማሪ መሳሪያ ፡ OpenAI ኢቫልስ )
የሰው የሩብሪክ ውጤት ፓነል ገምጋሚዎችን ሊያድኑ የሚችሉ ቡድኖች $$ ለድምፅ፣ ለውይይት፣ “ይህንን ሰው ይቀበላል?”፣ እንደ ገምጋሚዎች ሁኔታ ትንሽ ትርምስ ቢፈጠር ይመረጣል።
LLM-እንደ ዳኛ (ከህግ ማዕቀፎች ጋር) ፈጣን የድግግሞሽ ዑደቶች $-$$ ፈጣን እና ሊሰፋ የሚችል፣ ነገር ግን አድልዎ ሊወርስ ይችላል እና አንዳንድ ጊዜ እውነታዎችን ሳይሆን ስሜቶችን ደረጃ ሊሰጥ ይችላል (ምርምር + የሚታወቁ አድልዎ ጉዳዮች ፡ G-Eval )
የተቃዋሚ ቀይ-ቲሚንግ ስፕሪንት ደህንነት + ተገዢነት $$ ቅመም የበዛበት የመውደቅ ሁነታዎችን ያገኛል፣ በተለይም ፈጣን መርፌ - በጂም ውስጥ የጭንቀት ፈተና ይመስላል (የስጋት አጠቃላይ እይታ ፡ OWASP LLM01 ፈጣን መርፌ / OWASP ለ LLM መተግበሪያዎች 10 ምርጥ )
ሰው ሰራሽ የሙከራ ማመንጨት የውሂብ-ላይት ቡድኖች $ በጣም ጥሩ ሽፋን፣ ነገር ግን ሰው ሰራሽ ጥያቄዎች በጣም ጨዋ እና በጣም ጨዋ ሊሆኑ ይችላሉ… ተጠቃሚዎች ጨዋ አይደሉም
በእውነተኛ ተጠቃሚዎች የኤ/ቢ ሙከራ የበሰሉ ምርቶች $$$ በጣም ግልጽ የሆነው ምልክት - እንዲሁም መለኪያዎች ሲወዛወዙ በጣም ስሜታዊ ጭንቀት የሚፈጥር (ክላሲክ ተግባራዊ መመሪያ ፡ ኮሃቪ እና ሌሎችም፣ “በድር ላይ ቁጥጥር የሚደረግባቸው ሙከራዎች” )
በሪዝቬል-grounded eval (RAG ቼኮች) ፈልግ + የጥራት ማረጋገጫ መተግበሪያዎችን $$ "አውዱን በትክክል ይጠቀማል" ይለካል፣ የቅዠት ውጤት የዋጋ ግሽበትን ይቀንሳል (የRAG ግምገማ አጠቃላይ እይታ ፡ የRAG ግምገማ፡ የዳሰሳ ጥናት )
ክትትል + የመንሸራተት ማወቂያ የምርት ስርዓቶች $$-$$$ ከጊዜ በኋላ መበስበስን ይይዛል - እስኪያድንዎት ድረስ ግልጽ ያልሆነ 😬 (የመንሸራተቻ አጠቃላይ እይታ ፡ የፅንሰ-ሀሳብ ተንሸራታች ጥናት (PMC) )

ዋጋዎቹ ሆን ተብሎ የሚዘጋጁ መሆናቸውን ልብ ይበሉ። የሚወሰኑት በመጠን፣ በመሳሪያዎች አጠቃቀም እና በአጋጣሚ በሚፈጠሩት ስብሰባዎች ብዛት ላይ ነው።.


7) የሰው ግምገማ - ሰዎች ገንዘብ የሚያገኙት ሚስጥራዊ መሣሪያ 👀🧑⚖️

አውቶማቲክ ግምገማ ብቻ ካደረጉ፣ የሚከተሉትን ያመልጣሉ፦

  • የቃና አለመጣጣም ("ለምን በጣም አጸያፊ ነው")

  • ግልጽ የሚመስሉ ረቂቅ የእውነታ ስህተቶች

  • ጎጂ አንድምታዎች፣ የተዛባ አመለካከቶች ወይም አስቸጋሪ የሆኑ አገላለጾች (አደጋ + አድልዎ ፍሬም ፡ NIST AI RMF 1.0 )

  • አሁንም "ብልጥ" የሚመስሉ የመመሪያ-መከተል ስህተቶች

የሩብሪክስ ኮንክሪት ይስሩ (ወይም ገምጋሚዎች ፍሪስታይል ያደርጋሉ)

መጥፎ ረቂቅ፡ “እርዳታ”
የተሻለ ረቂቅ

  • ትክክለኛነት ፡- በጥያቄው + አውድ መሠረት እውነታዊነት

  • ሙሉነት ፡- አስፈላጊ ነጥቦችን ያለ ምንም ጫጫታ ይሸፍናል

  • ግልጽነት ፡ ሊነበብ የሚችል፣ የተዋቀረ፣ አነስተኛ ግራ መጋባት

  • ፖሊሲ/ደህንነት ፡ የተገደበ ይዘትን ያስወግዳል፣ እምቢታውን በሚገባ ያስተናግዳል (የደህንነት ማዕቀፍ ፡ NIST AI RMF 1.0 )

  • ቅጥ : ከድምጽ፣ ከድምፅ፣ ከንባብ ደረጃ ጋር ይጣጣማል

  • ታማኝነት ፡- ምንጮችን ወይም ያልተደገፉ የይገባኛል ጥያቄዎችን አይፈጥርም

እንዲሁም፣ አንዳንድ ጊዜ የደረጃ አሰጣጥ ቼኮችን ያድርጉ። ሁለት ገምጋሚዎች ያለማቋረጥ የማይስማሙ ከሆነ፣ “የሰዎች ችግር” አይደለም፣ የደረጃ አሰጣጥ ችግር ነው። ብዙውን ጊዜ (በደረጃ አሰጣጥ ወሰን አስተማማኝነት መሰረታዊ ነገሮች ፡ ማክሂው በኮሄን ካፓ ላይ )።


8) የAI ሞዴሎችን ለደህንነት፣ ለጥንካሬ እና ለ"ኡፍ፣ ተጠቃሚዎች" እንዴት መገምገም እንደሚቻል 🧯🧪

ይህ ከመተግበሩ በፊት የሚያደርጉት ክፍል ነው - ከዚያም ኢንተርኔት በጭራሽ ስለማይተኛ ማድረግዎን ይቀጥሉ።.

የጥንካሬ ፈተናዎችን ማካተት አለባቸው

  • ታይፖስ፣ የቋንቋ ዘይቤ፣ የተሰበረ ሰዋሰው

  • በጣም ረጅም ጥያቄዎች እና በጣም አጭር ጥያቄዎች

  • የሚጋጩ መመሪያዎች (“አጭር ይሁኑ ግን እያንዳንዱን ዝርዝር ያካትቱ”)

  • ተጠቃሚዎች ግቦችን የሚቀይሩባቸው ባለብዙ ዙር ውይይቶች

  • ፈጣን የመርፌ ሙከራዎች (“ቀደም ሲል ያሉትን ደንቦች ችላ ይበሉ…”) (የማስፈራሪያ ዝርዝሮች ፡ OWASP LLM01 ፈጣን የመርፌ መርፌ )

  • ጥንቃቄ የተሞላበት እምቢታ የሚያስፈልጋቸው ስሜታዊ ርዕሶች (የአደጋ/የደህንነት ማዕቀፍ ፡ NIST AI RMF 1.0 )

የደህንነት ግምገማ "እምቢ ማለት ነው" ብቻ አይደለም

ጥሩ ሞዴል የሚከተሉትን ማድረግ አለበት:

  • ደህንነታቸው ያልተጠበቁ ጥያቄዎችን በግልጽ እና በተረጋጋ ሁኔታ ውድቅ ያድርጉ (የመመሪያ ማዕቀፍ ፡ NIST AI RMF 1.0 )

  • ተገቢ በሚሆንበት ጊዜ የበለጠ አስተማማኝ አማራጮችን ያቅርቡ

  • ምንም ጉዳት የሌላቸውን ጥያቄዎች ከልክ በላይ አለመቀበልን ያስወግዱ (የተሳሳቱ አዎንታዊ)

  • አሻሚ ጥያቄዎችን በማብራራት ጥያቄዎች (ሲፈቀድ) ያስተናግዱ

ከመጠን በላይ አለመቀበል እውነተኛ የምርት ችግር ነው። ተጠቃሚዎች እንደ አጠራጣሪ ጎብሊኖች መታየት አይወዱም። 🧌 (አጠራጣሪ ጎብሊኖች ቢሆኑም እንኳ።)


9) ወጪ፣ መዘግየት እና የአሠራር እውነታ - ሁሉም ሰው የሚረሳው ግምገማ 💸⏱️

ሞዴል "አስደናቂ" ሊሆን ይችላል እና ቀርፋፋ፣ ውድ ወይም በአሠራር ረገድ ደካማ ከሆነ ለእርስዎ አሁንም የተሳሳተ ሊሆን ይችላል።.

ገምግም፦

  • የዘገየ ስርጭት (በአማካይ ብቻ ሳይሆን - p95 እና p99 አስፈላጊ ናቸው) (ፐርሰንታይሎች ለምን አስፈላጊ ናቸው ፡ የጉግል SRE የስራ ደብተር ስለ ክትትል )

  • በአንድ ስኬታማ ተግባር የሚወጣው ወጪ (በአንድ ቶከን የሚወጣው ወጪ አይደለም)

  • በጭነት ስር ያለ መረጋጋት (የጊዜ ማብቂያዎች፣ የፍጥነት ገደቦች፣ ያልተለመዱ ጭማሪዎች)

  • የመሳሪያ ጥሪ አስተማማኝነት (ተግባራትን የሚጠቀም ከሆነ ባህሪይ አለው?)

  • የውጤት ርዝመት አዝማሚያዎች (አንዳንድ ሞዴሎች ተንሸራታች ናቸው፣ እና ተንሸራታች ዋጋ ያስከፍላል)

በትንሹ የከፋ ሞዴል በተግባር ሊያሸንፍ ይችላል። ይህ ግልጽ ይመስላል፣ ነገር ግን ሰዎች ችላ ይሉታል። እንደ ግሮሰሪ ሩጫ የስፖርት መኪና መግዛት፣ ከዚያም ስለ trunk ቦታ ማጉረምረም።.


10) መቅዳት (እና ማስተካከል) የሚችሉት ቀላል ከጫፍ እስከ ጫፍ የስራ ፍሰት 🔁✅

ማለቂያ በሌለው ሙከራ ውስጥ ሳይታሰሩ የAI ሞዴሎችን እንዴት መገምገም እንደሚቻል ተግባራዊ ፍሰት እነሆ

  1. ስኬትን ይግለጹ ፡ ተግባር፣ ገደቦች፣ የውድቀት ወጪዎች

  2. ትንሽ "ኮር" የሙከራ ስብስብ ይፍጠሩ ፡ እውነተኛ አጠቃቀምን የሚያንፀባርቁ 50-200 ምሳሌዎች

  3. የጠርዝ እና የተቃዋሚ ስብስቦችን ያክሉ ፡ የመርፌ ሙከራዎች፣ አሻሚ ጥያቄዎች፣ የደህንነት ምርመራዎች (የፈጣን መርፌ ክፍል ፡ OWASP LLM01 )

  4. አውቶማቲክ ፍተሻዎችን ያሂዱ ፡ ቅርጸት፣ የJSON ትክክለኛነት፣ እና በተቻለ መጠን መሰረታዊ ትክክለኛነት

  5. የሰው ግምገማ ያሂዱ ፡- በተለያዩ ምድቦች የናሙና ውጤቶች፣ ከርዕሰ ጉዳዩ ጋር ነጥብ ይስጡ

  6. የዋጋ ልዩነቶችን ያወዳድሩ ፡ ጥራት ከዋጋ ጋር ሲነጻጸር መዘግየት እና ደህንነት

  7. የሙከራ ጊዜ ውስን ልቀት ፡ የA/B ሙከራዎች ወይም የታቀደ ልቀት (የA/B የሙከራ መመሪያ ፡ ኮሃቪ እና ሌሎች )

  8. በምርት ውስጥ ያለው ክትትል ፡ drift፣ regressions፣ የተጠቃሚ ግብረመልስ ዑደቶች (drift ማጠቃለያ ፡ Concept drift survey (PMC) )

  9. ድግግሞሽ ፡ የዝማኔ መጠየቂያዎችን፣ መልሶ ማግኘት፣ ጥሩ ማስተካከያ፣ የጥበቃ መንገዶች፣ ከዚያም እንደገና ያሂዱ ኢቫል (የግምገማ ድግግሞሽ ቅጦች ፡ የOpenAI evals guide )

የተሻሻሉ ምዝግብ ማስታወሻዎችን ያስቀምጡ። አስደሳች ስለሆነ ሳይሆን ለወደፊቱ - ቡና ይዘው "ምን ተለወጠ?" እያሉ ያመሰግኑዎታል ☕🙂


11) የተለመዱ ወጥመዶች (ወይም ሰዎች በድንገት ራሳቸውን የሚያታልሉባቸው መንገዶች) 🪤

  • ለሙከራው ስልጠና ፡ መለኪያው ጥሩ እስኪመስል ድረስ ጥያቄዎችን ያመቻቻሉ፣ ነገር ግን ተጠቃሚዎች ይጎዳሉ

  • የሚፈስ የግምገማ መረጃ ፡ የሙከራ ጥያቄዎች በስልጠና ወይም በማጣራት ውሂብ ውስጥ ይታያሉ (ውይ!)

  • ነጠላ ሜትሪክ አምልኮ ፡ የተጠቃሚ እሴትን የማያንፀባርቅ አንድ ነጥብ ማሳደድ

  • የስርጭት ለውጥን ችላ ማለት ፡ የተጠቃሚ ባህሪ ለውጦች እና ሞዴልዎ በጸጥታ እየተበላሸ ይሄዳል (የምርት ስጋት ማዕቀፍ ፡ የፅንሰ-ሀሳብ ተንሸራታች ጥናት (PMC) )

  • "ብልህነትን" ከመጠን በላይ ማጣራት ፡- ብልህ አስተሳሰብ ቅርፀትን ቢሰብር ወይም እውነታዎችን ቢፈጥር ምንም ለውጥ አያመጣም።

  • የተቃውሞ ጥራት አለመሞከር ፡ “አይ” ትክክል ሊሆን ይችላል ግን አሁንም አስከፊ የሆነ የ UX ጥራት

እንዲሁም ከማሳያዎች ተጠንቀቁ። ማሳያዎች እንደ የፊልም ማስታወቂያዎች ናቸው። ድምቀቶችን ያሳያሉ፣ ቀርፋፋ ክፍሎችን ይደብቃሉ፣ እና አልፎ አልፎ ከድራማ ሙዚቃ ጋር ይዋሻሉ። 🎬


12) የ AI ሞዴሎችን እንዴት መገምገም እንደሚቻል የማጠቃለያ ማጠቃለያ 🧠✨

የAI ሞዴሎችን መገምገም አንድ ነጥብ ብቻ አይደለም፣ ሚዛናዊ ምግብ ነው። ፕሮቲን (ትክክል)፣ አትክልቶች (ደህንነት)፣ ካርቦሃይድሬት (ፍጥነት እና ዋጋ) እና አዎ፣ አንዳንድ ጊዜ ጣፋጭ ምግብ (ድምፅ እና ደስታ) 🍲🍰 (የአደጋ ማዕቀፍ ፡ NIST AI RMF 1.0 )

ሌላ ምንም ነገር ካላስታወሱ፦

  • ለአጠቃቀም ጉዳይዎ "ጥሩ" ማለት ምን ማለት እንደሆነ ይግለጹ

  • ታዋቂ መለኪያዎችን ብቻ ሳይሆን የሚወክሉ የሙከራ ስብስቦችን ይጠቀሙ

  • አውቶማቲክ መለኪያዎችን ከሰው የሪብሪክ ግምገማ ጋር ያጣምሩ

  • እንደ ተጠቃሚዎች ያሉ ጠንካራነትን እና ደህንነትን መሞከር ተቃራኒ ነው (ምክንያቱም አንዳንድ ጊዜ… እነሱ ናቸው) (የፈጣን መርፌ ክፍል ፡ OWASP LLM01 )

  • ወጪንና መዘግየትን በግምገማው ውስጥ ያካትቱ፣ እንደ በኋላ ግምት ሳይሆን (ፐርሰንታይሎች ለምን አስፈላጊ ናቸው ፡ Google SRE Workbook )

  • ከተጀመረ በኋላ ክትትል - የተንሸራታች ሞዴሎች፣ መተግበሪያዎች ይሻሻላሉ፣ ሰዎች ፈጠራ ያገኛሉ (የተንሸራታች አጠቃላይ እይታ ፡ የፅንሰ-ሀሳብ ተንሸራታች ጥናት (PMC) )

ምርትዎ በቀጥታ ሲሰራ እና ሰዎች ያልተጠበቁ ነገሮችን ማድረግ ሲጀምሩ የAI ሞዴሎችን እንዴት መገምገም እንደሚቻል ይህ ነው

ተደጋጋሚ ጥያቄዎች

ለእውነተኛ ምርት የ AI ሞዴሎችን እንዴት መገምገም እንደሚቻል የመጀመሪያው እርምጃ ምንድነው?

"ጥሩ" ማለት ለተጠቀሰው የአጠቃቀም ጉዳይዎ ምን ማለት እንደሆነ በመግለጽ ይጀምሩ። የተጠቃሚውን ግብ፣ ምን ውድቀቶች እንደሚያስወጡዎት (ዝቅተኛ-ደረጃዎች እና ከፍተኛ-ደረጃዎች) እና ሞዴሉ የት እንደሚሰራ (ደመና፣ በመሳሪያ ላይ፣ ቁጥጥር የሚደረግበት አካባቢ) ይግለጹ። ከዚያም እንደ መዘግየት፣ ወጪ፣ ግላዊነት እና የድምፅ ቁጥጥር ያሉ ከባድ ገደቦችን ይዘርዝሩ። ይህ መሠረት ከሌለዎት ብዙ ይለካሉ እና አሁንም መጥፎ ውሳኔ ያደርጋሉ።.

ተጠቃሚዎቼን በእውነት የሚያንፀባርቅ የሙከራ ስብስብ እንዴት መገንባት እችላለሁ?

ለሕዝብ ብቻ የሚሆን መለኪያ ብቻ ሳይሆን፣ በእውነት የእርስዎ የሆነ የሙከራ ስብስብ ይገንቡ። በኩራት የሚያስተላልፉትን ወርቃማ ምሳሌዎች፣ እንዲሁም ጫጫታ ያለባቸው፣ በድብቅ የሚጻፉ ትየባዎች፣ ግማሽ ዓረፍተ ነገሮች እና አሻሚ ጥያቄዎች ያካትቱ። ቅዠቶችን ወይም ደህንነታቸው ያልተጠበቀ ምላሾችን የሚፈትሹ የጠርዝ ጉዳዮችን እና የውድቀት ሁነታ ምርመራዎችን ያክሉ። ውጤቶቹ በምርት ውስጥ እንዳይወድቁ በችሎታ ደረጃ፣ በቀበሌኛዎች፣ በቋንቋዎች እና በጎራዎች ውስጥ ያለውን ልዩነት ይሸፍኑ።.

የትኞቹን መለኪያዎች መጠቀም አለብኝ፣ እና የትኞቹስ አሳሳች ሊሆኑ ይችላሉ?

መለኪያዎችን ከተግባር አይነት ጋር ያዛምዱ። ትክክለኛ ተዛማጅነት እና ትክክለኛነት ለማውጣት እና ለተዋቀሩ ውጤቶች በጥሩ ሁኔታ ይሰራሉ፣ ትክክለኛነት/ማስታወስ እና F1 የሆነ ነገር ሲጎድል ከተጨማሪ ጫጫታ የባሰ ነው። እንደ BLEU/ROUGE ያሉ ተደራራቢ መለኪያዎች ለክፍት ተግባራት ሊያሳስቱ ይችላሉ፣ እና ተመሳሳይነትን ማካተት “የተሳሳቱ ግን ተመሳሳይ” መልሶችን ሊሸልም ይችላል። ለመጻፍ፣ ለመደገፍ ወይም ለማመዛዘን፣ መለኪያዎችን ከሰው ግምገማ እና ከተግባር ስኬት መጠኖች ጋር ያጣምሩ።.

ግምገማዎችን እንዴት ማዋቀር አለብኝ፣ ተደጋጋሚ እና የምርት ደረጃ ያላቸው እንዲሆኑ?

ጠንካራ የግምገማ ማዕቀፍ ሊደገም የሚችል፣ ተወካይ፣ ባለብዙ ደረጃ እና ተግባራዊ ሊሆን የሚችል ነው። አውቶማቲክ ፍተሻዎችን (ቅርጸት፣ የJSON ትክክለኛነት፣ መሰረታዊ ትክክለኛነት) ከሰው የግምገማ ውጤት እና ከተቃዋሚ ሙከራዎች ጋር ያጣምሩ። መፍሰስን በማስወገድ እና "ፈተናውን በማስተማር" የመነካካት መቋቋም የሚችል ያድርጉት። ግምገማውን ወጪውን ያውቁት ስለዚህ ከጅምሩ አንድ ጊዜ ብቻ ሳይሆን በተደጋጋሚ እንደገና ማስኬድ ይችላሉ።.

ወደ ትርምስ ሳይለወጥ የሰውን ግምገማ ለማድረግ ምርጡ መንገድ ምንድነው?

ገምጋሚዎች ፍሪስታይል እንዳይሆኑ ተጨባጭ የሆነ የርዕስ ዝርዝር ይጠቀሙ። እንደ ትክክለኛነት፣ ሙሉነት፣ ግልጽነት፣ የደህንነት/ፖሊሲ አያያዝ፣ የቅጥ/የድምጽ ማዛመድ እና ታማኝነት ያሉ የውጤት ባህሪያትን (ይገባኛል ጥያቄዎችን ወይም ምንጮችን ሳይፈጥሩ) ይፈትሹ። በየጊዜው በግምገማዎች መካከል ያለውን ስምምነት ያረጋግጡ፤ ገምጋሚዎች ያለማቋረጥ የማይስማሙ ከሆነ፣ የርዕስ ዝርዝር ማስተካከያ ሊያስፈልግ ይችላል። የሰው ግምገማ በተለይ ለድምፅ አለመዛመድ፣ ለስውር የእውነታ ስህተቶች እና መመሪያን ተከትሎ ለሚከሰቱ ውድቀቶች ጠቃሚ ነው።.

ደህንነትን፣ ጥንካሬን እና ፈጣን የመርፌ አደጋዎችን እንዴት መገምገም እችላለሁ?

በ"ኡፍ፣ ተጠቃሚዎች" ግብዓቶች ይሞክሩ፡ የፊደል አጻጻፍ፣ የቃላት አጻጻፍ፣ እርስ በርስ የሚጋጩ መመሪያዎች፣ በጣም ረጅም ወይም በጣም አጭር ጥያቄዎች እና ባለብዙ ዙር የግብ ለውጦች። "ቀደም ሲል ያሉትን ደንቦች ችላ ማለት" ያሉ ፈጣን የመርፌ ሙከራዎችን እና ጥንቃቄ የተሞላበት እምቢታ የሚያስፈልጋቸው ስሜታዊ ርዕሶችን ያካትቱ። ጥሩ የደህንነት አፈጻጸም እምቢ ማለት ብቻ አይደለም - በግልጽ እምቢ ማለት፣ ተገቢ ሲሆን ደህንነታቸው የተጠበቀ አማራጮችን መስጠት እና UXን የሚጎዱ ምንም ጉዳት የሌላቸውን ጥያቄዎች ከልክ በላይ አለመቀበልን ማስወገድ ነው።.

ወጪንና መዘግየትን ከእውነታው ጋር በሚስማማ መንገድ እንዴት መገምገም እችላለሁ?

አማካዮችን ብቻ አይለኩ - የዘገየ ስርጭትን ይከታተሉ፣ በተለይም p95 እና p99። በአንድ የተሳካ ተግባር ወጪን ይገምግሙ፣ በተናጠል በአንድ ቶከን ወጪን ሳይሆን፣ ምክንያቱም እንደገና መሞከር እና የተዛባ ውጤቶች ቁጠባን ሊያጠፉ ይችላሉ። በጭነት ስር ያለውን መረጋጋት (የጊዜ ማብቂያዎች፣ የፍጥነት ገደቦች፣ ጭማሪዎች) እና የመሳሪያ/ተግባር ጥሪ አስተማማኝነትን ይፈትሹ። በእጥፍ ፈጣን ወይም የበለጠ የተረጋጋ ትንሽ የከፋ ሞዴል የተሻለ የምርት ምርጫ ሊሆን ይችላል።.

የ AI ሞዴሎችን እንዴት መገምገም እንደሚቻል ቀላል ከጫፍ እስከ ጫፍ የስራ ፍሰት ምንድነው?

የስኬት መስፈርቶችን እና ገደቦችን ይግለጹ፣ ከዚያም እውነተኛ አጠቃቀምን የሚያንፀባርቅ ትንሽ ኮር የሙከራ ስብስብ (በግምት 50-200 ምሳሌዎች) ይፍጠሩ። ለደህንነት እና ለመርፌ ሙከራዎች የጠርዝ እና የተቃዋሚ ስብስቦችን ያክሉ። አውቶማቲክ ፍተሻዎችን ያሂዱ፣ ከዚያም ለሰው ልጅ የሩብሪክ ውጤት ውጤቶችን ናሙና ያድርጉ። ጥራትን ከዋጋ ጋር ሲነጻጸር መዘግየትን ከደህንነት ጋር ያወዳድሩ፣ በተወሰነ ልቀት ወይም A/B ሙከራ አብራሪ ያድርጉ፣ እና በማምረት ውስጥ ለመንሸራተት እና ለመመለሻዎች ክትትል ያድርጉ።.

ቡድኖች በሞዴል ግምገማ ውስጥ በድንገት እራሳቸውን የሚያታልሉባቸው በጣም የተለመዱ መንገዶች ምንድናቸው?

የተለመዱ ወጥመዶች ተጠቃሚዎች እየተሰቃዩ እያሉ መለኪያን ለማሻሻል የሚረዱ ጥያቄዎችን ማመቻቸት፣ የግምገማ ጥያቄዎችን ወደ ስልጠና ወይም የማጣራት ውሂብ ማፍሰስ እና የተጠቃሚን እሴት የማያንፀባርቅ አንድ መለኪያ ማምለክ ያካትታሉ። ቡድኖች የስርጭት ለውጥን ችላ ይላሉ፣ የቅርጸት ተገዢነትን እና ታማኝነትን ከማንጸባረቅ ይልቅ “ብልህነት” ላይ ከመጠን በላይ ኢንዴክስ ያደርጋሉ፣ እና የውድቀት ጥራት ሙከራን ይዝለላሉ። ማሳያዎች እነዚህን ችግሮች ሊደብቁ ይችላሉ፣ ስለዚህ በተዋቀሩ ኢቫልዎች ላይ ይተማመኑ፣ ሪሎችን አያደምቁ።.

ማጣቀሻዎች

  1. የOpenAI - የOpenAI ኢቫልስ መመሪያ - platform.openai.com

  2. ብሔራዊ የደረጃዎች እና የቴክኖሎጂ ተቋም (NIST) - የ AI ስጋት አስተዳደር ማዕቀፍ (AI RMF 1.0) - nist.gov

  3. OpenAI - openai/evals (GitHub repository) - github.com

  4. scikit-learn - precision_recall_fscore_support - scikit-learn.org

  5. የኮምፒውተር ቋንቋ ጥናት ማህበር (ACL አንቶሎጂ) - BLEU - aclanthology.org

  6. የኮምፒውተር ቋንቋ ጥናት ማህበር (ACL አንቶሎጂ) - ROUGE - aclanthology.org

  7. arXiv - G-Eval - arxiv.org

  8. OWASP - LLM01: ፈጣን መርፌ - owasp.org

  9. OWASP - OWASP ለትልቅ ቋንቋ ሞዴል አፕሊኬሽኖች 10 ምርጥ - owasp.org

  10. የስታንፎርድ ዩኒቨርሲቲ - ኮሃቪ እና ሌሎችም፣ “በድር ላይ ቁጥጥር የሚደረግባቸው ሙከራዎች” - stanford.edu

  11. arXiv - የ RAG ግምገማ፡ የዳሰሳ ጥናት - arxiv.org

  12. PubMed Central (PMC) - የፅንሰ-ሀሳብ ተንሸራታች ጥናት (PMC) - nih.gov

  13. PubMed Central (PMC) - McHugh በኮሄን ካፓ ላይ - nih.gov

  14. ጉግል - የSRE የስራ ደብተር ስለ ክትትል - google.workbook

የቅርብ ጊዜውን የ AI ኦፊሴላዊ የ AI ረዳት መደብር ያግኙ

ስለ እኛ

ወደ ጦማር ተመለስ