"Data ကုန်သည်ကြီး OpenAI"

 

Generative AI နယ်ပယ်မှာ လက်ရှိရလဒ် အကောင်းဆုံး GPT4 Turbo MultiModel နဲ့ ဉီးဆောင်နေတဲ့ Open AI ကတော့ Data Partnerships လို့ခေါ်တဲ့ Program ကိုထုတ်ဖော်ပြောကြားထားပါတယ်။
လက်ရှိမှာ ဘယ်လို Data အမျိုးအစားတွေကို OpenAI က လိုအပ်နေတာလဲဆိုရင်တော့ Online မှာ အလွယ်တကူ ရှာလို့မရနိုင်တဲ့အချက်အလက်တွေကိုမှ လူမှုအသိုင်းအဝိုင်းနဲ့ လည်း ပတ်သတ်ဆက်စပ်နေတဲ့ Large Scale Data Sets တွေကို လိုအပ်နေတာပါ။ Data ဆိုတဲ့ နေရာမှာ စာသား ၊ အသံ ၊ ပုံရိပ် ၊ ဗွီဒီယို လိုမျိုး Format တွေအကုန်လုံးကို ဆိုလိုတာပါ။ ရှည်လျားတဲ့ စာသား ဒါမှမဟုတ် စကားပြောတွေ ၊ လူတွေရဲ့ ရည်ရွယ်ချက်ရှိရှိလုပ်‌ဆောင်တဲ့ အချက်အလက်တွေကို အဓိကထားရှာဖွေနေတာလည်းဖြစ်ပါတယ်။
ကမ္ဘာ့အဆင့်မီ optical character recognition(OCR)နည်းပညာတွေနဲ့ အလိုအလျောက် စကားလုံးတွေကို သိရှိိနိုင်တဲ့ automatic speech recognition (ASR) စနစ်တွေရှိထားတဲ့အတွက် ကြိုက်တဲ့ပုံစံနဲ့လာတဲ့ Data တွေကို လက်ရှိ AI စနစ်ကြီးကို သင်ပေးဖို့အတွက် အသုံးပြုနိုင်တဲ့ အားသာချက်တွေပိုင်ဆိုင်ထားတာပါ။ ပုဂ္ဂိုလ်ရေးဆိုင်ရာအချက်အလက်တွေနဲ့ အရေးကြီး အထိအခိုက်မခံတဲ့ အချက်အလက် တွေကို ရှာဖွေနေတာမဟုတ်ဘဲ တကယ်လို့ အခုလိုမျိုး အချက်အလက်တွေပါလာရင်လည်း ဖယ်ရှားပေးသွားမှာပါ။
ခု Program ကိုစိတ်ဝင်စားတဲ့ အဖွဲ့အစည်းတွေအနေနဲ့ Data Partnership လုပ်ဖို့ လတ်တလော နည်းလမ်း ၂ ခုရှိပြီး ပထမဆုံးနည်းလမ်းက Open-Source Archive အမျိုးအစားဖြစ်ပြီး လူများစုလည်း ယူငင်သုံးစွဲနိုင်မယ့် Dataset အမျိုးအစားဖြစ်ပါတယ်။ ဒုတိယနည်းလမ်းကတော့ Private Dataset ဖြစ်ပြီး သက်ဆိုင်ရာ လုပ်ငန်းကြီးတွေရဲ့ အချက်အလက်တွေကို Fine tune ဒါမှမဟုတ် Custom Models တည်ဆောက်ချင်ပေမယ့် Private နဲ့ဘဲ ထားချင်တဲ့အခြေအနေမျိုးအတွက် ရည်ရွယ်တာပါ။
သက်ဆိုင်ရာလင့်ကိုတော့ စိတ်ဝင်စားတဲ့သူတွေ အသေးစိတ်ဖတ်လို့ရအောင် အောက်မှာ ချထားပေးပါမယ်။ 
 

0 Comments