Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Doan

No description
by

Minh Hien

on 19 December 2012

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Doan

Giáo viên hướng dẫn: TS. Nguyễn Duy Phương
Sinh viên thực hiện : Tạ Thị Minh Hiển
Lớp : D08CNPM2 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Mục tiêu đề tài Tìm hiểu về phương pháp lọc cộng tác
Nghiên cứu phương pháp lọc cộng tác dựa vào phương pháp đồng huấn luyện (Co - Training)
Kiểm nghiệm các phương pháp trên dữ liệu thực về phim Lọc cộng tác là kỹ thuật thành công nhất được áp dụng rộng rãi cho nhiều hệ thống thương mại điện tử ngày nay. Tổng quan về lọc cộng tác Tổng quan về lọc cộng tác
Bài toán lọc cộng tác
Các phương pháp lọc cộng tác
Những hạn chế và đề xuất
Phương pháp lọc cộng tác dựa vào Co – Training
Kiểm nghiệm Nội dung trình bày Lọc cộng tác (collaborative filtering) là phương pháp dự đoán quan điểm của người dùng hiện thời đối với các sản phẩm phù hợp dựa trên thói quen sử dụng sản phẩm của cộng đồng người dùng có cùng chung sở thích Bài toán lọc cộng tác Lọc cộng tác dựa trên sản phẩm Lọc cộng tác dựa trên người dùng Các phương pháp lọc cộng tác Kết hợp giữa hai kiểu quan sát Quan sát vấn đề lọc cộng tác theo sản phẩm Quan sát vấn đề lọc cộng tác theo người dùng Phương pháp UserBased là phương pháp ước lượng mức độ tương tự giữa các cặp người dùng dựa vào các độ đo tương tự để từ đó sinh ra dự đoán các sản phẩm mới phù hợp với người dùng cần được tư vấn. Lọc cộng tác dựa trên người dùng Lọc cộng tác dựa trên sản phẩm Phương pháp ItemBased là phương pháp ước lượng mức độ tương tự giữa các cặp sản phẩm dựa vào các độ đo tương tự để từ đó sinh ra dự đoán các sản phẩm mới phù hợp với người dùng cần được tư vấn. Mỗi phương pháp đều được tiến hành theo ba bước như sau Tính toán mức độ tương tự giữa các cặp người dùng hoặc sản phẩm Tính toán đưa ra dự đoán Xác định tập láng giềng cho người dùng, sản phẩm cần tư vấn Hạn chế Vấn đề thưa thớt dữ liệu
Vấn đề dữ liệu thưa làm cho việc xác định tập láng giềng của thuật toán tại Bước 2 trở nên kém tin cậy
Vấn đề người dùng mới và sản phẩm mới Phương pháp đề xuất Xây dựng thuật toán huấn luyện đồng thời giữa các kiểu quan sát: quan sát vấn đề lọc cộng tác theo người dùng và quan sát vấn đề lọc cộng tác theo sản phẩm để sinh ra dự đoán cho mỗi người dùng. VD chọn =3: với người dùng u1: S1 = {u2,u3}
S2 ={u1}, S3 = {u1,u2}, S4 = { }, S5 ={ }.
Khi đó, mức độ tương tự giữa hai người dùng được xác định theo công thức (2). (1) Các nhãn phân loại chắc chắn chỉ được dự đoán từ những người dùng j Si theo công thức: Quan sát vấn đề lọc cộng tác theo người dùng Quan sát vấn đề lọc cộng tác theo sản phẩm Chọn =3, khi đó với tập người dùng đã cho trong ví dụ trước ta sẽ tìm được C1 = {p5}, C2 ={ }, C3 = { }, C4 = { }, C5 ={ }.
Tuy vậy, nếu việc quan sát theo sản phẩm được thực hiện sau quá trình quan sát theo người dùng ta sẽ xác định được C1 = {p2, p3, p4, p5, p7}, C2 = {p1, p3, p4, p5, p7}, C3 = {p1, p2, p4, p5, p7}, C4 = {p1, p2, p3, p5, p6, p7}, C5 = {p1, p2, p3, p4, p7}, C6 = {p2, p3, p4, p7}, C6 = { p1, p2, p3, p4, p5, p6} Mức độ tương tự giữa hai sản phẩm được xác định theo công thức Trong đó, Các nhãn phân loại chắc chắn chỉ được dự đoán từ những sản phẩm y Cx theo công thức Trong đó, Dựa theo kết quả quan sát theo người dùng ta tìm được K1={p4}, K2={p7}, K3={p4}, K4={p1}, K5={p7}, K6={p4}, K7={p5}. Khi đó, bảng giá trị đánh giá được thể hiện trong bảng dưới Với tập người dùng đã cho trong bảng trước ta tìm được K1={u3}, K2={u1}, K3={u1}. Trong đó Thuật toán Co-Tranning-UserBased Thuật toán Co-Tranning-ItemBased Đầu vào: Khởi tạo ma trận đánh giá
Đầu ra : Ma trận dự đoán
Các bước tiến hành:
1. Khởi tạo số bước lặp ban đầu: t 1;
2. Bước lặp:
Repeat
2.1. Huấn luyện theo sản phẩm:
a) Tìm theo công thức (5), (6).
b) Tìm theo công thức (8).
c) Dự đoán theo công thức (7).
2.2. Huấn luyện theo người dùng:
a) Tìm theo công thức (1), (2).
b) Tìm theo công thức (4).
c) Dự đoán theo công thức (3).
2.3. Tăng bước lặp: t t+1;
Until Converges. Đầu vào: Khởi tạo ma trận đánh giá
Đầu ra : Ma trận dự đoán
Các bước tiến hành:
1. Khởi tạo số bước lặp ban đầu: t 1;
2. Bước lặp:
Repeat
2.1. Huấn luyện theo người dùng:
a) Tìm theo công thức (1), (2).
b) Tìm theo công thức (4).
c) Dự đoán theo công thức (3).
2.2. Huấn luyện theo sản phẩm:
a) Tìm theo công thức (5), (6).
b) Tìm theo công thức (8).
c) Dự đoán theo công thức (7).
2.3. Tăng bước lặp: t t+1;
Until Converges. Phương pháp thử nghiệm Toàn bộ dữ liệu thử nghiệm được chia thành hai phần:
+ Một phần Utr được sử dụng làm dữ liệu huấn luyện
+ Phần còn lại Ute được sử dụng để kiểm tra.
Tập Utr chứa 75% đánh giá và tập Ute chứa 25% đánh giá Sai số dự đoán MAEu với mỗi khách hàng u thuộc tập dữ liệu kiểm tra được tính bằng trung cộng sai số tuyệt đối giữa giá trị dự đoán và giá trị thực đối với tất cả mặt hàng thuộc tập Pu. Sai số dự đoán trên toàn tập dữ liệu kiểm tra được tính bằng trung bình cộng sai số dự đoán cho mỗi khách hàng thuộc Ute. Dữ liệu thử nghiệm Sử dụng tập dữ liệu của MovieLens ml-100K bao gồm 100.000 đánh giá của 943 người dùng cho 1682 phim. Giá trị đánh giá được thực hiện từ 1 đến 5. Số lượng đánh giá của mỗi người dùng trong tập kiểm tra được thay đổi sao cho số lượng đánh giá đã biết lần lượt là 5, 10, 15 và 20, phần còn lại là những đánh giá cần dự đoán. Kết quả kiểm nghiệm Phương pháp Co-Training-Userbased Phương pháp Co-Training-Itembased So sánh kết quả 0.82314 0.50712 0.78935 0.81359 0.66134 0.82314 0.81359 0.78188 0.59447 0.53854 0.51292 0.57201 0.50778 0.93971 0.59856 0.62128 UserBased Co-ItemBased ItemBased Co-UserBased Số đánh giá biết trước Phương pháp 5 10 15 20 KẾT LUẬN Đồ án đã trình bày phương pháp :lọc cộng tác bằng phương pháp đồng huấn luyện. Trong đó, quá trình huấn luyện theo người dùng bổ sung thêm một số nhãn phân loại chắc chắn cho quá trình huấn luyện theo sản phẩm và ngược lại. Ưu điểm chủ yếu của phương pháp này là việc phân loại đồng thời theo cả người dùng và sản phẩm cho phép sử dụng thông tin từ những nhóm người dùng tương tự nhau và nhờ vậy cải thiện độ chính xác phân loại khi có ít dữ liệu Hướng nghiên cứu Một vấn đề đặt ra cần được tiếp tục nghiên cứu là với điều kiện nào của ma trận đánh giá để phương pháp Co-Training-UserBased và Co-Training-ItemUserBased có thể điền được toàn bộ các giá trị trong ma trận đánh giá. Thank Trong đó you! (2) (3) (4) (5) (6) (7) (8)
Full transcript