Machine learning

CLIP — কনট্রাস্টিভ ল্যাঙ্গুয়েজ-ইমেজ প্রিট্রেনিং

CLIP (Contrastive Language-Image Pretraining) হলো একটি ভিশন-ল্যাঙ্গুয়েজ মডেল যা ২০২১ সালে OpenAI-এর Radford et al. কর্তৃক প্রবর্তিত হয়েছে। এটি ৪০০ মিলিয়ন ইন্টারনেট-উৎস থেকে প্রাপ্ত ছবি-টেক্সট জোড়ার উপর কনট্রাস্টিভ উদ্দেশ্য ব্যবহার করে প্রশিক্ষণ গ্রহণ করে, যার মাধ্যমে সারিবদ্ধ ছবি এবং টেক্সট উপস্থাপনা যৌথভাবে শেখে। এটি কোনো টাস্ক-নির্দিষ্ট ফাইন-টিউনিং ছাড়াই ছবি শ্রেণীকরণ কাজে জিরো-শট স্থানান্তর সক্ষম করে।

MethodMind-এ খুলুনশীঘ্রইভিডিওশীঘ্রইDownload slides

পুরো পদ্ধতিটি পড়ুন

শুধু সদস্যদের জন্য

এই অংশটি পড়তে বিনামূল্যের অ্যাকাউন্ট দিয়ে সাইন ইন করুন।

সাইন ইন করুন

Method map

The neighbourhood of related methods — select a node to explore.

CLIP

রেসনেট (রেসিড্যুয়াল নেটও…ভিশন ট্রান্সফরমার মাল্টিমোডাল BERT-ভিত্তিক…মাল্টিমোডাল বাক্য এমবেডিং

উৎস

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link ↗
Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link ↗
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3

এই পৃষ্ঠা কীভাবে উদ্ধৃত করবেন

ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/bn/deep-learning/clip

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

রেসনেট (রেসিড্যুয়াল নেটওয়ার্ক)গভীর শিখন↔ compare
ভিশন ট্রান্সফরমারগভীর শিখন↔ compare

Compare side by side →

যেখানে উদ্ধৃত

মাল্টিমোডাল BERT-ভিত্তিক ক্লাসিফিকেশন মাল্টিমোডাল বাক্য এমবেডিং

এই পৃষ্ঠায় কোনো ত্রুটি চোখে পড়েছে? জানান বা সংশোধনের প্রস্তাব দিন →