Xen kẽ là gì và tại sao nó được sử dụng?

Xen kẽ hợp nhất kết quả của hai hệ thống xếp hạng vào một danh sách duy nhất hiển thị cho mỗi người dùng và gán các lần nhấp cho hệ thống nào đã đóng góp vào mỗi kết quả được nhấp. Bởi vì mỗi người dùng thực sự so sánh cả hai hệ thống cùng một lúc, xen kẽ thường nhạy hơn thử nghiệm A/B trong việc phát hiện các cải tiến xếp hạng.

Tại sao không thể coi các lần nhấp là mức độ liên quan một cách hiển nhiên?

Người dùng có xu hướng nhấp vào các kết quả được xếp hạng cao hơn bất kể mức độ liên quan thực sự (sai lệch vị trí) và bị ảnh hưởng bởi cách các kết quả được trình bày. Các mô hình nhấp chuột điều chỉnh các sai lệch này để các lần nhấp có thể được diễn giải như bằng chứng đáng tin cậy hơn về mức độ liên quan.

Đánh giá người dùng và trực tuyến

Đánh giá người dùng và trực tuyến đo lường chất lượng truy xuất thông qua tương tác người dùng thực hoặc mô phỏng, sử dụng các nghiên cứu, dữ liệu nhấp chuột, thử nghiệm A/B và xen kẽ thay vì các phán đoán mức độ liên quan cố định.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics

Tools & resources

Tải xuống bản trình chiếu

Learn & explore

VideoSắp ra mắt

Definition

Đánh giá người dùng và trực tuyến bao gồm các phương pháp đánh giá hệ thống truy xuất thông qua tương tác người dùng, từ các nghiên cứu trong phòng thí nghiệm có kiểm soát về hiệu suất và sự hài lòng của nhiệm vụ đến các thử nghiệm trực tuyến quy mô lớn như thử nghiệm A/B và xen kẽ, so sánh các hệ thống bằng cách quan sát hành vi của người dùng thực.

Scope

Chủ đề này bao gồm đánh giá tập trung vào người dùng và hành vi của họ: các nghiên cứu tương tác người dùng về thành công nhiệm vụ và sự hài lòng, việc sử dụng các tín hiệu ngầm như số lần nhấp và thời gian dừng, các mô hình nhấp chuột diễn giải hành vi, và các thử nghiệm trực tuyến có kiểm soát bao gồm thử nghiệm A/B và xen kẽ. Nó đề cập đến cách đo lường lợi ích thực sự của người dùng, các sai lệch của tín hiệu hành vi, và thiết kế cũng như phân tích các thử nghiệm trực tuyến. Nó bổ sung cho việc đánh giá bộ sưu tập thử nghiệm ngoại tuyến được đề cập trong các chủ đề liền kề.

Core questions

Làm thế nào để đo lường sự hài lòng và thành công nhiệm vụ thực sự của người dùng thay vì chỉ mức độ liên quan so với các phán đoán?
Người dùng cung cấp những tín hiệu ngầm nào, và chúng đáng tin cậy đến mức nào?
Các mô hình nhấp chuột giải thích sai lệch vị trí và trình bày như thế nào?
Thử nghiệm A/B và xen kẽ so sánh các hệ thống trực tuyến như thế nào?
Tại sao xen kẽ thường nhạy hơn thử nghiệm A/B đối với các so sánh xếp hạng?

Key concepts

nghiên cứu người dùng tương tác
thành công và sự hài lòng của nhiệm vụ
phản hồi ngầm (số lần nhấp, thời gian dừng)
mô hình nhấp chuột (vị trí, thác nước)
sai lệch vị trí và trình bày
thử nghiệm A/B
xen kẽ
các chỉ số trực tuyến và độ nhạy

Key theories

Phản hồi ngầm và mô hình nhấp chuột: Số lần nhấp của người dùng và các tương tác khác cung cấp các tín hiệu liên quan phong phú nhưng có sai lệch; các mô hình nhấp chuột như mô hình vị trí và mô hình thác nước chính thức hóa cách người dùng xem xét kết quả để các lần nhấp có thể được diễn giải như bằng chứng về mức độ liên quan.
Thử nghiệm trực tuyến có kiểm soát: Thử nghiệm A/B phân công ngẫu nhiên người dùng vào các biến thể hệ thống và so sánh các chỉ số kết quả, trong khi xen kẽ pha trộn hai xếp hạng vào một danh sách và gán các lần nhấp, thường mang lại các so sánh chất lượng xếp hạng nhạy hơn trong cùng một người dùng.

Clinical relevance

Đánh giá trực tuyến là cách chính mà các hệ thống tìm kiếm, đề xuất và thương mại điện tử lớn quyết định những thay đổi nào sẽ được triển khai, bởi vì nó đo lường tác động thực sự đến người dùng. Thử nghiệm A/B và xen kẽ, được diễn giải thông qua các mô hình nhấp chuột điều chỉnh sai lệch, thúc đẩy cải tiến liên tục việc xếp hạng sản xuất ở quy mô lớn.

History

Đánh giá IR lấy người dùng làm trung tâm từ lâu đã nghiên cứu hành vi tìm kiếm tương tác, nhưng sự phát triển của tìm kiếm web đã làm cho việc đánh giá trực tuyến quy mô lớn trở nên khả thi. Công trình năm 2002 của Joachims đã thiết lập dữ liệu nhấp chuột (clickthrough data) như một tín hiệu liên quan và giới thiệu phương pháp xen kẽ (interleaving), thử nghiệm web có kiểm soát đã phát triển trong ngành công nghiệp suốt những năm 2000, và khảo sát năm 2016 đã củng cố các phương pháp đánh giá trực tuyến.

Key figures

Thorsten Joachims
Filip Radlinski
Katja Hofmann
Ron Kohavi

Seminal works

hofmann2016
joachims2002
kohavi2009

Frequently asked questions

Xen kẽ là gì và tại sao nó được sử dụng?: Xen kẽ hợp nhất kết quả của hai hệ thống xếp hạng vào một danh sách duy nhất hiển thị cho mỗi người dùng và gán các lần nhấp cho hệ thống nào đã đóng góp vào mỗi kết quả được nhấp. Bởi vì mỗi người dùng thực sự so sánh cả hai hệ thống cùng một lúc, xen kẽ thường nhạy hơn thử nghiệm A/B trong việc phát hiện các cải tiến xếp hạng.
Tại sao không thể coi các lần nhấp là mức độ liên quan một cách hiển nhiên?: Người dùng có xu hướng nhấp vào các kết quả được xếp hạng cao hơn bất kể mức độ liên quan thực sự (sai lệch vị trí) và bị ảnh hưởng bởi cách các kết quả được trình bày. Các mô hình nhấp chuột điều chỉnh các sai lệch này để các lần nhấp có thể được diễn giải như bằng chứng đáng tin cậy hơn về mức độ liên quan.