Nhúng câu đa phương thức
Nhúng câu đa phương thức ánh xạ văn bản và hình ảnh (và đôi khi âm thanh hoặc video) vào một không gian vector liên tục được chia sẻ, sao cho các cặp có liên quan về ngữ nghĩa từ các phương thức khác nhau nằm gần nhau. Được huấn luyện bằng các mục tiêu tương phản trên các tập dữ liệu ghép đôi lớn, các biểu diễn này cung cấp khả năng truy xuất đa phương thức, phân loại zero-shot và suy luận thị giác-ngôn ngữ.
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Bản đồ phương pháp
Lân cận của các phương pháp liên quan — chọn một nút để khám phá.
Nguồn tài liệu
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
- Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link ↗
Cách trích dẫn trang này
ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/vi/deep-learning/multimodal-sentence-embeddings
Phương pháp nào?
Đặt phương pháp này bên cạnh những phương pháp gần gũi nhất với nó và đọc chúng song song — thư viện bày sách lên bàn; lựa chọn là của bạn.
So sánh song song →Được tham chiếu bởi
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →