CLIP — কনট্রাস্টিভ ল্যাঙ্গুয়েজ-ইমেজ প্রিট্রেনিং
CLIP (Contrastive Language-Image Pretraining) হলো একটি ভিশন-ল্যাঙ্গুয়েজ মডেল যা ২০২১ সালে OpenAI-এর Radford et al. কর্তৃক প্রবর্তিত হয়েছে। এটি ৪০০ মিলিয়ন ইন্টারনেট-উৎস থেকে প্রাপ্ত ছবি-টেক্সট জোড়ার উপর কনট্রাস্টিভ উদ্দেশ্য ব্যবহার করে প্রশিক্ষণ গ্রহণ করে, যার মাধ্যমে সারিবদ্ধ ছবি এবং টেক্সট উপস্থাপনা যৌথভাবে শেখে। এটি কোনো টাস্ক-নির্দিষ্ট ফাইন-টিউনিং ছাড়াই ছবি শ্রেণীকরণ কাজে জিরো-শট স্থানান্তর সক্ষম করে।
পুরো পদ্ধতিটি পড়ুন
এই অংশটি পড়তে বিনামূল্যের অ্যাকাউন্ট দিয়ে সাইন ইন করুন।
Method map
The neighbourhood of related methods — select a node to explore.
উৎস
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link ↗
- Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link ↗
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3
এই পৃষ্ঠা কীভাবে উদ্ধৃত করবেন
ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/bn/deep-learning/clip
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- রেসনেট (রেসিড্যুয়াল নেটওয়ার্ক)গভীর শিখন↔ compare
- ভিশন ট্রান্সফরমারগভীর শিখন↔ compare
যেখানে উদ্ধৃত
এই পৃষ্ঠায় কোনো ত্রুটি চোখে পড়েছে? জানান বা সংশোধনের প্রস্তাব দিন →