පුවත් - OpenAI Point E: තනි GPU එකකින් මිනිත්තු කිහිපයකින් සංකීර්ණ තරංග ආකෘතිවලින් ත්‍රිමාණ ලක්ෂ්‍ය වලාකුළක් සාදන්න

නව ලිපියක Point-E: සංකීර්ණ සංඥා වලින් ත්‍රිමාණ ලක්ෂ්‍ය වලාකුළු ජනනය කිරීමේ පද්ධතියක්, OpenAI පර්යේෂණ කණ්ඩායම Point E, සංකීර්ණ පෙළ මගින් මෙහෙයවනු ලබන විවිධ සහ සංකීර්ණ ත්‍රිමාණ හැඩතල නිර්මාණය කිරීමට විසරණ ආකෘති භාවිතා කරන ත්‍රිමාණ ලක්ෂ්‍ය වලාකුළු පෙළ කොන්දේසි සහිත සංස්ලේෂණ පද්ධතියක් හඳුන්වා දෙයි. ඉඟිතනි GPU එකකින් මිනිත්තු කිහිපයකින්.
වර්තමාන අති නවීන රූප උත්පාදන ආකෘතිවල විශ්මය ජනක කාර්ය සාධනය ත්‍රිමාණ පෙළ වස්තු ජනනය කිරීමේ පර්යේෂණ උත්තේජනය කර ඇත.කෙසේ වෙතත්, 2D මාදිලි මෙන් නොව, මිනිත්තු හෝ තත්පර කිහිපයකින් ප්‍රතිදානය ජනනය කළ හැකි, වස්තු උත්පාදක මාදිලි සාමාන්‍යයෙන් තනි නියැදියක් උත්පාදනය කිරීමට පැය කිහිපයක් GPU වැඩ අවශ්‍ය වේ.
නව ලිපියක Point-E: සංකීර්ණ සංඥා වලින් ත්‍රිමාණ ලක්ෂ්‍ය වලාකුළු ජනනය කිරීමේ පද්ධතියක්, OpenAI පර්යේෂණ කණ්ඩායම Point·E, ත්‍රිමාණ ලක්ෂ්‍ය වලාකුළු සඳහා පාඨමය කොන්දේසි සහිත සංශ්ලේෂණ පද්ධතියක් ඉදිරිපත් කරයි.මෙම නව ප්‍රවේශය තනි GPU එකකින් විනාඩියකින් හෝ දෙකකින් සංකීර්ණ පෙළ සංඥා වලින් විවිධ සහ සංකීර්ණ 3D හැඩතල නිර්මාණය කිරීමට ප්‍රචාරණ ආකෘතියක් භාවිතා කරයි.
අතථ්‍ය යථාර්ථය සහ ක්‍රීඩාවේ සිට කාර්මික නිර්මාණය දක්වා සැබෑ ලෝකයේ යෙදුම් සඳහා ත්‍රිමාණ අන්තර්ගත නිර්මාණය ප්‍රජාතන්ත්‍රීකරණය කිරීමට ඉතා වැදගත් වන පෙළ ත්‍රිමාණ බවට පරිවර්තනය කිරීමේ අභියෝගය කෙරෙහි කණ්ඩායම අවධානය යොමු කර ඇත.පෙළ ත්‍රිමාණ බවට පරිවර්තනය කිරීම සඳහා පවතින ක්‍රම කාණ්ඩ දෙකකට අයත් වන අතර, ඒ සෑම එකක්ම එහි අවාසි ඇත: 1) සාම්පල කාර්යක්ෂමව ජනනය කිරීමට උත්පාදක ආකෘති භාවිතා කළ හැකි නමුත් විවිධ සහ සංකීර්ණ පෙළ සංඥා සඳහා කාර්යක්ෂමව පරිමාණය කළ නොහැක;2) සංකීර්ණ සහ විවිධ පෙළ ඉඟි හැසිරවීමට පෙර-පුහුණු කළ පෙළ-රූප ආකෘතියක්, නමුත් මෙම ප්‍රවේශය පරිගණකමය වශයෙන් තීව්‍ර වන අතර ආකෘතිය අර්ථවත් හෝ සුසංයෝගී ත්‍රිමාණ වස්තුවලට අනුරූප නොවන දේශීය අවම තුළ පහසුවෙන් සිරවිය හැක.
එබැවින්, කණ්ඩායම විසින් ඉහත ප්‍රවේශ දෙකෙහි ශක්තීන් ඒකාබද්ධ කිරීම අරමුණු කරගත් විකල්ප ප්‍රවේශයක් ගවේෂණය කරන ලදී, විශාල පෙළ-රූප යුගල කට්ටලයක් (එය විවිධ සහ සංකීර්ණ සංඥා හැසිරවීමට ඉඩ සලසමින්) පුහුණු කරන ලද පෙළ සිට රූපය දක්වා විසරණ ආකෘතියක් භාවිතා කරයි. කුඩා පෙළ-රූප යුගල කට්ටලයක් මත පුහුණු කරන ලද ත්‍රිමාණ රූප විසරණ ආකෘතියකි.image-3D යුගල දත්ත කට්ටලය.Text-to-image ආකෘතිය පළමුව තනි කෘතිම නිරූපණයක් නිර්මාණය කිරීම සඳහා ආදාන රූපය සාම්පල කරන අතර, image-to-3D ආකෘතිය තෝරාගත් රූපය මත පදනම්ව 3D point cloud එකක් නිර්මාණය කරයි.
විධානයේ උත්පාදක තොගය පදනම් වී ඇත්තේ පාඨයෙන් කොන්දේසි සහිතව රූප ජනනය කිරීම සඳහා මෑතකදී යෝජිත ජනක රාමු මත ය (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).ඔවුන් GLIDE පරාමිති බිලියන 3ක් සහිත GLIDE ආකෘතියක් භාවිතා කරයි (Nichol et al., 2021), විදැහුම් කරන ලද ත්‍රිමාණ මාදිලි මත සිය පෙළ-පින්තූර පරිවර්තන ආකෘතිය ලෙස මනාව සකස් කර ඇති අතර RGB ලක්ෂ්‍ය වලාකුළු ජනනය කරන විසරණ ආකෘති කට්ටලයක් භාවිතා කරයි. පරිවර්තන ආකෘතිය.රූපයට රූප.3D ආකෘති.
පෙර වැඩ වලදී ලක්ෂ්‍ය වලාකුළු සැකසීමට ත්‍රිමාණ ගෘහනිර්මාණ භාවිතා කළ අතර, පර්යේෂකයන් කාර්යක්ෂමතාව වැඩි දියුණු කිරීම සඳහා සරල පරිවර්තක පාදක ආකෘතියක් (Vaswani et al., 2017) භාවිතා කළහ.ඔවුන්ගේ විසරණ ආකෘති ගෘහ නිර්මාණ ශිල්පය තුළ, ලක්ෂ්‍ය වලාකුළු රූප පළමුව පූර්ව-පුහුණු කළ ViT-L/14 CLIP ආකෘතියකට ලබා දෙන අතර පසුව ප්‍රතිදාන දැල් සලකුණු ලෙස පරිවර්තකය තුළට සංග්‍රහ කෙරේ.
ඔවුන්ගේ ආනුභවික අධ්‍යයනයේ දී, කණ්ඩායම විසින් යෝජිත Point·E ක්‍රමය COCO වස්තු හඳුනාගැනීම, ඛණ්ඩනය කිරීම සහ අත්සන දත්ත කට්ටල වලින් ලකුණු ලබා ගැනීමේ සංඥා මත අනෙකුත් ජනක 3D මාදිලි සමඟ සංසන්දනය කරන ලදී.Point·E හට සංකීර්ණ පෙළ සංඥා වලින් විවිධ සහ සංකීර්ණ ත්‍රිමාණ හැඩතල උත්පාදනය කිරීමට සහ අනුමාන කාලය විශාලත්වයේ අනුපිළිවෙලකින් දෙකකින් වේගවත් කිරීමට හැකි බව ප්‍රතිඵල තහවුරු කරයි.ත්‍රිමාණ පෙළ සංස්ලේෂණය පිළිබඳ වැඩිදුර පර්යේෂණ සඳහා ඔවුන්ගේ ක්‍රියාකාරකම් පෙළඹෙනු ඇතැයි කණ්ඩායම බලාපොරොත්තු වේ.
ව්‍යාපෘතියේ GitHub හි පූර්ව පුහුණු වූ ලක්ෂ්‍ය වලාකුළු ප්‍රචාරණ ආකෘතියක් සහ ඇගයීම් කේතයක් ඇත.Document Point-E: සංකීර්ණ ඉඟි වලින් ත්‍රිමාණ ලක්ෂ්‍ය වලාකුළු නිර්මාණය කිරීමේ පද්ධතියක් arXiv හි ඇත.
ඔබට කිසිදු ප්‍රවෘත්තියක් හෝ විද්‍යාත්මක සොයාගැනීමක් මග හැරීමට අවශ්‍ය නැති බව අපි දනිමු.සතිපතා AI යාවත්කාලීන ලබා ගැනීමට අපගේ ජනප්‍රිය Synced Global AI සතිපතා පුවත් පත්‍රිකාවට දායක වන්න.

පසු කාලය: දෙසැම්බර්-28-2022