কম্পিউটার ভিশনগুলির অন্যতম প্রধান অ্যাপ্লিকেশন হিসাবে, অবজেক্ট সনাক্তকরণ এমন দৃশ্যে ক্রমশ গুরুত্বপূর্ণ হয়ে উঠছে যেগুলিতে উচ্চ নির্ভুলতার প্রয়োজন তবে রোবোটিকস এবং ড্রাইভারবিহীন গাড়িগুলির মতো সীমিত কম্পিউটিং সংস্থান রয়েছে। দুর্ভাগ্যক্রমে, অনেক আধুনিক উচ্চ-নির্ভুলতা সনাক্তকারী এই সীমাবদ্ধতাগুলি পূরণ করে না। আরও গুরুত্বপূর্ণ, বাস্তব-বিশ্বের অবজেক্ট সনাক্তকরণ অ্যাপ্লিকেশনগুলি বিভিন্ন প্ল্যাটফর্মগুলিতে চালিত হয়, যার প্রায়শই বিভিন্ন সংস্থান প্রয়োজন।
সুতরাং প্রাকৃতিক প্রশ্নটি হল কীভাবে সঠিক এবং দক্ষ অবজেক্ট ডিটেক্টর ডিজাইন করা যায় যা সংস্থার বিস্তৃত বিস্তারে খাপ খাইয়ে নিতে পারে?
দক্ষতাপত্র: সিভিপিআর 2020-এ গৃহীত, স্কেলযোগ্য এবং দক্ষ অবজেক্ট সনাক্তকরণ, স্কেলযোগ্য এবং দক্ষ অবজেক্ট ডিটেক্টরগুলির একটি নতুন পরিবারকে পরিচয় করিয়ে দেয়। নিউরাল নেটওয়ার্কগুলি (দক্ষতা নেটওয়ার্ক) স্কেলিং এবং নতুন দ্বি-নির্দেশমূলক ফাংশনাল নেটওয়ার্ক (বিএফপিএন) এবং নতুন স্কেলিং বিধিগুলিকে সমন্বিত করার বিষয়ে পূর্ববর্তী কাজের উপর ভিত্তি করে দক্ষতা আধুনিক আধুনিকতা অর্জন করেছে যখন 9 গুণ ছোট এবং পরিচিত আধুনিক ডিটেক্টরগুলির তুলনায় উল্লেখযোগ্যভাবে কম গণনা ব্যবহার করে। নিম্নলিখিত চিত্রটি মডেলগুলির সাধারণ নেটওয়ার্ক আর্কিটেকচার দেখায়।
মডেল আর্কিটেকচার অপ্টিমাইজ করা
দক্ষ ডিটের পেছনের ধারণাটি পূর্ববর্তী অত্যাধুনিক শনাক্তকরণের মডেলগুলি পরিকল্পিতভাবে গণ্য দক্ষতার উন্নতির সমাধান অনুসন্ধানের প্রচেষ্টা থেকে উদ্ভূত হয়েছে। সাধারণভাবে, অবজেক্ট ডিটেক্টরগুলির তিনটি প্রধান উপাদান থাকে: একটি ব্যাকবোন যা প্রদত্ত চিত্র থেকে বৈশিষ্ট্যগুলি বের করে; অবজেক্টগুলির একটি নেটওয়ার্ক যা পিছনের অংশ থেকে একাধিক স্তরের ফাংশনগুলিকে ইনপুট হিসাবে গ্রহণ করে এবং চিত্রের বৈশিষ্ট্যযুক্ত বৈশিষ্ট্য উপস্থাপনকারী সম্মিলিত ফাংশনগুলির একটি তালিকা আউটপুট করে; এবং একটি চূড়ান্ত শ্রেণি / বক্স নেটওয়ার্ক যা প্রতিটি বস্তুর শ্রেণি এবং অবস্থান পূর্বাভাস দেওয়ার জন্য সম্মিলিত ফাংশন ব্যবহার করে।
এই উপাদানগুলির জন্য নকশা বিকল্পগুলি পর্যালোচনা করার পরে, আমরা কার্যকারিতা এবং দক্ষতা উন্নত করতে কয়েকটি কী অপ্টিমাইজেশন সনাক্ত করেছি। পূর্ববর্তী ডিটেক্টরগুলি বেশিরভাগ ক্ষেত্রে রেসনেটস, রেসনেসট বা অ্যামিবানেটকে ব্যাকবোন হিসাবে ব্যবহার করে, যা হয় কম শক্তিশালী বা দক্ষ দক্ষতার চেয়ে কম দক্ষতার হয়। দক্ষ নেটব্যাকের প্রাথমিক প্রয়োগের সাথে আরও অনেক দক্ষতা অর্জন করা যায়। উদাহরণস্বরূপ, একটি রেসিনাট বেসলাইন যা রেসনেট -50 ব্যাকবোন ব্যবহার করে শুরু করে, আমাদের বিলোপ সমীক্ষা দেখায় যে কেবলমাত্র দক্ষতা -3 -3 এর সাথে রেসনেট -50 প্রতিস্থাপনের দ্বারা নির্ভুলতা 3% দ্বারা উন্নত করা যায় এবং 20% দ্বারা কমিয়ে দেওয়া যায়। আর একটি অপ্টিমাইজেশন হ'ল ফাংশনাল নেটওয়ার্কগুলির দক্ষতা উন্নত করা। পূর্ববর্তী বেশিরভাগ ডিটেক্টর কেবল ডাউনলিংক পিরামিড নেটওয়ার্ক (এফপিএন) ব্যবহার করলেও আমরা দেখতে পেলাম যে ডাউনস্ট্রিম এফপিএন তথ্যের একমুখী প্রবাহের মধ্যে সহজাতভাবে সীমাবদ্ধ। প্যানেটের মতো বিকল্প এফপিএন অতিরিক্ত গতিতে অতিরিক্ত প্রবাহ যুক্ত করে।
নিউরাল আর্কিটেকচার অনুসন্ধান (এনএএস) ব্যবহারের সাম্প্রতিক প্রচেষ্টা আরও জটিল এনএএস-এফপিএন আর্কিটেকচার আবিষ্কার করেছে। যাইহোক, যদিও এই নেটওয়ার্ক কাঠামো কার্যকর, এটি অনিয়মিত এবং একটি নির্দিষ্ট কাজের জন্য উচ্চতর অনুকূলিতকরণের ফলে অন্যান্য কাজের সাথে খাপ খাইয়ে নেওয়া কঠিন করে তোলে। এই সমস্যাগুলি সমাধান করার জন্য, আমরা দ্বি-দিকনির্দেশক ক্রিয়াকলাপ বিআইএফপিএন এর একটি নতুন নেটওয়ার্কের প্রস্তাব দিচ্ছি, যা এফপিএন / প্যানেট / এনএএস-এফপিএন থেকে মাল্টি-লেয়ার ফাংশনগুলির সংমিশ্রনের ধারণাটি বাস্তবায়িত করে, যা তথ্য উপর থেকে নীচে এবং উভয় ক্ষেত্রেই সংক্রমণের অনুমতি দেয় allows নীচে থেকে উপরে। নিয়মিত এবং কার্যকর সংযোগ ব্যবহার।
দক্ষতা আরও উন্নত করতে, আমরা একটি নতুন দ্রুত স্বাভাবিকীকরণ সংশ্লেষ কৌশল প্রস্তাব করি prop Ditionতিহ্যগত পদ্ধতিগুলি এফপিএন-তে সমস্ত ইনপুটগুলি একইভাবে ব্যবহার করে, এমনকি বিভিন্ন রেজোলিউশনেও।তবে, আমরা লক্ষ্য করেছি যে বিভিন্ন রেজোলিউশন সহ ইনপুট বৈশিষ্ট্যগুলি প্রায়শই আউটপুট কার্যগুলিতে অসমভাবে অবদান রাখে। সুতরাং, আমরা প্রতিটি ইনপুট ফাংশনে অতিরিক্ত ওজন যুক্ত করি এবং নেটওয়ার্কটিকে প্রতিটিটির গুরুত্ব শিখি। আমরা সমস্ত নিয়মিত কনভলিউশনগুলিও কম ব্যয়বহুল, গভীরভাবে পৃথকযোগ্য কনভোলভেশনগুলির সাথে প্রতিস্থাপন করব। এই অপ্টিমাইজেশনের সাথে, আমাদের বিএফপিএন আরও 4% দ্বারা নির্ভুলতার উন্নতি করে যখন গণনা ব্যয় 50% কমিয়েছে।
তৃতীয় অপ্টিমাইজেশান বিভিন্ন সংস্থান সীমাবদ্ধতা অধীনে নির্ভুলতা এবং দক্ষতার মধ্যে সেরা সমঝোতা অর্জন জড়িত। আমাদের পূর্ববর্তী কাজ দেখিয়েছে যে কোনও নেটওয়ার্কের গভীরতা, প্রস্থ এবং রেজোলিউশনের কো-স্কেলিং চিত্রের স্বীকৃতি কার্যকারিতা উল্লেখযোগ্যভাবে উন্নত করতে পারে। এই ধারণার দ্বারা অনুপ্রাণিত হয়ে আমরা অবজেক্ট ডিটেক্টরগুলির জন্য একটি নতুন যৌগিক স্কেলিং পদ্ধতি প্রস্তাব করি যা সম্মিলিতভাবে রেজোলিউশন / গভীরতা / প্রস্থকে বাড়িয়ে তোলে। প্রতিটি নেটওয়ার্ক উপাদান, যেমন ব্যাকবোন, অবজেক্ট এবং ব্লক / শ্রেণীর ভবিষ্যদ্বাণীমূলক নেটওয়ার্কের একটি জটিল স্কেলিং ফ্যাক্টর থাকবে যা হিউরিস্টিক নিয়ম ব্যবহার করে সমস্ত স্কেলিংয়ের মাত্রা নিয়ন্ত্রণ করে। এই পদ্ধতির কোনও প্রদত্ত লক্ষ্য সংস্থান সীমাবদ্ধতার জন্য একটি স্কেল ফ্যাক্টর গণনা করে কীভাবে মডেলকে স্কেল করা যায় তা নির্ধারণ করা সহজ করে।
নতুন ব্যাকবোন এবং বিআইএফপিএন সংযুক্ত করে আমরা প্রথমে একটি দক্ষ দক্ষতা-ডি0 বেসলাইনটি ডিজাইন করি এবং তারপরে দক্ষ দক্ষতা-ডি 1 থেকে ডি 7 পাওয়ার জন্য যৌগিক স্কেলিং প্রয়োগ করি। প্রতিটি সিরিয়াল মডেলের উচ্চতর গণনা ব্যয় হয়, 3 বিলিয়ন এফএলওপি থেকে 300 বিলিয়ন এফএলপিএস থেকে শুরু করে বিস্তৃত রিসোর্স সীমাবদ্ধতা এবং উচ্চতর নির্ভুলতা সরবরাহ করে।
পারফরম্যান্স মডেল
বস্তু সনাক্তকরণের জন্য বহুল ব্যবহৃত রেফারেন্স ডেটাসেট, সিওসিও ডেটাসেটে দক্ষ দক্ষতার মূল্যায়ন। দক্ষ ডেট-ডি 7 গড় গড় যথার্থতা (এমএপি) অর্জন করে 52.2 যা পূর্ববর্তী আধুনিক মডেলের তুলনায় 1.5 পয়েন্ট বেশি, 4 গুণ কম পরামিতি এবং 9.4 গুণ কম গণনা ব্যবহার করে
আমরা দক্ষ ডিজিট এবং পূর্ববর্তী মডেলের মধ্যে প্যারামিটার আকার এবং সিপিইউ / জিপিইউ ল্যাটেন্সি তুলনা করেছি। অনুরূপ নির্ভুলতার সীমাবদ্ধতার সাথে, দক্ষতা মডেলগুলি জিপিইউতে 2-4 বার দ্রুত এবং অন্যান্য ডিটেক্টরগুলির তুলনায় প্রসেসরে 5-10 গুণ দ্রুত গতিতে চলে। দক্ষ দক্ষ মডেলগুলি প্রাথমিকভাবে অবজেক্ট শনাক্ত করার উদ্দেশ্যে তৈরি করা হয়েছে, তবে আমরা অন্যান্য কার্যকারণে যেমন শব্দার্থক বিভাগে তাদের কার্যকারিতাও পরীক্ষা করি। পৃথকীকরণের কার্য সম্পাদন করতে, আমরা একই স্কেলড ব্যাকবোন এবং বিআইএফপিএন বজায় রেখে সনাক্তকরণের মাথা এবং মাথা ক্ষতি এবং ক্ষতি প্রতিস্থাপনের মাধ্যমে E कुशलDet-D4 কে সামান্য সংশোধন করব। আমরা এই মডেলটি প্যাস্কাল ভিওসি ২০১২-এর জন্য বিগত আধুনিক বিভাগীয় মডেলগুলির সাথে তুলনা করি, যা বহুল ব্যবহৃত একটি বিভাগ ব্যবহৃত টেস্টিং ডেটাসেট।
তাদের ব্যতিক্রমী পারফরম্যান্সের প্রেক্ষিতে, দক্ষ ডেট ভবিষ্যতের অবজেক্ট সনাক্তকরণ গবেষণার জন্য একটি নতুন ভিত্তি হিসাবে পরিবেশন করবে এবং অনেকগুলি রিয়েল-ওয়ার্ল্ড অ্যাপ্লিকেশনগুলিতে উচ্চ নির্ভুল অবজেক্ট সনাক্তকরণ মডেলকে সম্ভবত সম্ভাব্য করে তুলবে বলে আশা করা হচ্ছে। সুতরাং গিথুব ডটকম এ কোডের সমস্ত ব্রেকপয়েন্ট এবং প্রিটার্নড মডেলটি খোল।