ScholarGate
Trợ lý
Machine learningDeep learning / NLP / CV

Nhúng câu đa phương thức

Nhúng câu đa phương thức ánh xạ văn bản và hình ảnh (và đôi khi âm thanh hoặc video) vào một không gian vector liên tục được chia sẻ, sao cho các cặp có liên quan về ngữ nghĩa từ các phương thức khác nhau nằm gần nhau. Được huấn luyện bằng các mục tiêu tương phản trên các tập dữ liệu ghép đôi lớn, các biểu diễn này cung cấp khả năng truy xuất đa phương thức, phân loại zero-shot và suy luận thị giác-ngôn ngữ.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtTải xuống bản trình chiếu

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Bản đồ phương pháp

Lân cận của các phương pháp liên quan — chọn một nút để khám phá.

Nguồn tài liệu

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link
  2. Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link

Cách trích dẫn trang này

ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/vi/deep-learning/multimodal-sentence-embeddings

Phương pháp nào?

Đặt phương pháp này bên cạnh những phương pháp gần gũi nhất với nó và đọc chúng song song — thư viện bày sách lên bàn; lựa chọn là của bạn.

So sánh song song

Được tham chiếu bởi

ScholarGateMultimodal Sentence Embeddings (Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning)). Truy cập ngày 2026-06-15 từ https://scholargate.app/vi/deep-learning/multimodal-sentence-embeddings · Bộ dữ liệu: https://doi.org/10.5281/zenodo.20539026