গুগলের এআই শুধুমাত্র শুরু এবং শেষ ফ্রেম থেকে ভিডিও তৈরি করতে পারে

এই কল্পনা করুন: আপনি একটি ভিডিও শুরু এবং শেষ দিয়েছেন এবং ফাঁকা পূরণের জন্য সীমিত তথ্য থেকে আপনি কী করতে পারেন তা বর্ণনা করে, ইন্টারল্যাভিং ফ্রেমগুলি স্কেচিংয়ের মাধ্যমে কাজ করে। পারবেন কি? এটি একটি অসম্ভব কাজ হিসাবে শব্দ হতে পারে, তবে গুগল এর এআই গবেষণা বিভাগের গবেষকরা একটি উপন্যাস সিস্টেম তৈরি করেছেন যা "একযোগে" ভিডিও ক্রম তৈরি করতে পারে যা একক প্রথম এবং চূড়ান্ত ফ্রেমের চেয়েও বেশি নয়, এটি "ইনব্যাটুইনিং" নামে পরিচিত।

গুগলের এআই শুধুমাত্র শুরু এবং শেষ ফ্রেম থেকে ভিডিও তৈরি করতে পারে
গুগলের এআই শুধুমাত্র শুরু এবং শেষ ফ্রেম থেকে ভিডিও তৈরি করতে পারে


তারা প্রিন্টিন্ট সার্ভার Arxiv.org এ একটি নতুন প্রকাশিত কাগজে তাদের কাজ বর্ণনা করে ("এখানে থেকে সেখানে: সরাসরি ভিডিও কনভোলিউশনের ব্যবহার করে ভিডিও ইনবটুইচিং")।

"কল্পিত বইগুলিকে অ্যানিমেশনগুলিতে স্বয়ংক্রিয়ভাবে চালু করতে আমরা যদি বুদ্ধিমান সিস্টেম শিখতে পারি তবে কল্পনা করুন। এটা করতে সক্ষম হওয়ায় নিঃসন্দেহে অ্যানিমেশন শিল্পকে বিপ্লব করা হবে, "পত্রিকার লেখক লিখেছিলেন। "যদিও এই ধরনের অতিশয় শ্রম-সঞ্চয় ক্ষমতা এখনও অত্যাধুনিক বর্তমানের বাইরে, কম্পিউটার দৃষ্টিভঙ্গির অগ্রগতি এবং মেশিন লার্নিং এটি ক্রমবর্ধমান আরো বাস্তব লক্ষ্য তৈরি করছে।"

এআই সিস্টেমে একটি পুরোপুরি সংশ্লেষিক মডেল রয়েছে - একটি ভিজুয়াল ভার্চুয়াল কর্টেক্স দ্বারা অনুপ্রাণিত গভীর স্নায়ু নেটওয়ার্কগুলির একটি শ্রেণী যা ভিজ্যুয়াল চিত্রাবলী বিশ্লেষণ করার জন্য সর্বাধিক প্রয়োগ করা হয় - তিনটি উপাদানগুলির সাথে: একটি 2 ডি-কনভোলুলাল ইমেজ ডিকোডার, একটি 3D-সংশ্লেষিক লুকায়িত উপস্থাপনা জেনারেটর এবং একটি ভিডিও জেনারেটর। চিত্র ডিকোডার মানচিত্রগুলি লক্ষ্য ভিডিও থেকে একটি লুকানো স্থান থেকে ফ্রেম করে, যখন লুকানো প্রতিনিধিত্ব জেনারেটর ইনপুট ফ্রেমে থাকা তথ্য অন্তর্ভুক্ত করতে শিখতে পারে। অবশেষে, ভিডিও জেনারেটরের ভিডিও ফ্রেমে লুকানো প্রতিনিধিত্বকে ডিকোড করে।

গবেষকরা বলেছিলেন যে ভিডিও ডিকোডিং থেকে লুকানো উপস্থাপনা প্রজন্মকে বিচ্ছিন্ন করা ভিডিওটি সফলভাবে অর্জনের জন্য "অত্যন্ত গুরুত্বপূর্ণ" ছিল এবং শুরুতে এবং শেষ ফ্রেমের এনকোডযুক্ত উপস্থাপনাগুলি থেকে সরাসরি ভিডিওগুলি তৈরির তাদের প্রচেষ্টাগুলি শেষ হয়ে গেছে। এটিকে মোকাবেলা করার জন্য, তারা ফ্রেম উপস্থাপনাগুলিকে ফিউজ করতে এবং প্রগতিশীলভাবে উত্পন্ন ভিডিওর রেজোলিউশন বৃদ্ধি করতে লুকায়িত উপস্থাপনা জেনারেটরটি ডিজাইন করেছেন।

তাদের দৃষ্টিভঙ্গি যাচাই করার জন্য, গবেষকরা তিনটি ডেটাসেট থেকে ভিডিওগুলি সোর্স করে - বিএআইআর রোবট pushing, KTH অ্যাকশন ডেটাবেস, এবং UCF101 অ্যাকশন স্বীকৃতি ডেটা সেট - এবং তাদের 64 x 64 পিক্সেলের রেজোলিউশনে ডাউনসামপ্লাল করে। প্রতিটি নমুনাটিতে মোট 16 টি ফ্রেম রয়েছে, যার মধ্যে 14 টি এআই সিস্টেম তৈরি করে কাজ করে। গবেষকরা প্রতিটি ভিডিও ফ্রেমের মডেলের জন্য 100 বার মডেলটি চালান এবং প্রতি মডেলের বৈকল্পিক এবং ডেটা সেটের জন্য প্রক্রিয়াটি 10 ​​বার পুনরাবৃত্তি করে। (প্রশিক্ষণটি Nvidia Tesla V100 গ্রাফিক্স কার্ডের প্রায় 5 দিন সময় নেয়।)

ফলাফল? এআই-জেনারেটেড ক্রমগুলি স্টাইলের মতো ছিল এবং প্রদত্ত শুরু এবং শেষ ফ্রেমগুলির সাথে সামঞ্জস্যপূর্ণ ছিল, গবেষকরা রিপোর্ট করেছিলেন এবং এরপরে উভয় "অর্থপূর্ণ" এবং বৈচিত্র্যপূর্ণ। "ভিডিও বিনিময় সম্পর্কে ভবিষ্যতের গবেষণার জন্য" [হয়তো] একটি কার্যকর বিকল্প দৃষ্টিকোণ সরবরাহ করে "এই ধরনের দীর্ঘ সময়ের ভিত্তিতে ভিডিও ইনব্যাটেনিং অর্জন করা যেতে পারে এমন বরং অবাক করা সত্য।"

0 Comments: