Một thuật toán học máy mới đang giúp Google cho biết những từ nào trong các truy vấn quan trọng nhất và cách chúng liên quan đến nhau.
Đối với công cụ tìm kiếm tên của Google, việc cung cấp kết quả đúng là tìm hiểu những gì mọi người đang yêu cầu. Và sự hiểu biết liên quan đến việc không tham gia vào các từ khóa có ý nghĩa trong một truy vấn tìm kiếm và bỏ qua phần còn lại. Nói chung, có thể bỏ qua các từ như một người khác và một người khác, một cách an toàn.
Vấn đề là có rất nhiều tìm kiếm mà ngay cả một công cụ tìm kiếm thông minh như Google cũng khó biết các từ liên quan đến nhau như thế nào và những từ nào quan trọng. Một ví dụ mà công ty cung cấp: Nếu người dùng tìm kiếm trên mạng, bạn có thể lấy thuốc cho ai đó về nhà thuốc không, thì đó là một người cực kỳ quan trọng, vì đó là cách viết tắt cho một người khác không phải tôi. Một người có thể sẽ suy luận rằng; một thuật toán tìm kiếm truyền thống, không quá nhiều.
Nhưng bây giờ Google đang tung ra bản cập nhật cho công cụ tìm kiếm bằng tiếng Anh được thiết kế để giúp nó hiểu sâu hơn về các truy vấn tinh tế như vậy, điều này sẽ cho phép nó mang lại kết quả phù hợp hơn. Đối với tìm kiếm ở trên, các kết quả hiện đang đứng đầu với một đoạn trích đặc trưng của YouTube liên quan đến vấn đề cụ thể là chọn đơn thuốc của người khác. (Trước đây, đoạn mã liên quan đến đơn thuốc nhưng không giải quyết được ý chính cụ thể của truy vấn.)
Tôi đã tham dự buổi xem trước báo chí tại trụ sở Google vào đầu tuần này, nơi một số giám đốc điều hành tìm kiếm của công ty đã đưa ra các ví dụ về kết quả cải tiến của thuật toán mới và giải thích công nghệ mới đi vào chúng. Và họ đặt thanh cao cho kỳ vọng; Phó chủ tịch tìm kiếm Pandu Nayak gọi họ là Thay đổi lớn nhất mà chúng tôi đã có trong năm năm qua và có lẽ là một trong những thay đổi lớn nhất kể từ khi thành lập công ty.
Không có BERT, Google không hiểu rằng truy vấn này liên quan đến việc lấy toa thuốc của người khác.
CHỨNG NHẬN TẠI NƠI LÀM VIỆC
Theo dịch vụ, các cải tiến mới thúc đẩy một công nghệ được phát triển tại Google có tên là BERT , viết tắt của Đại diện Bộ mã hóa hai chiều từ Transformers. Chúng tôi, các nhà khoa học không phải AI không phải lo lắng về bộ mã hóa, biểu diễn và máy biến thế là gì. Nhưng ý chính của ý tưởng là BERT huấn luyện các thuật toán ngôn ngữ máy bằng cách cung cấp cho chúng các đoạn văn bản có một số từ bị loại bỏ. Thách thức của thuật toán là đoán những từ còn thiếu, hóa ra đó là một trò chơi mà máy tính chơi tốt và là một cách hiệu quả để đào tạo một thuật toán để hiểu văn bản một cách hiệu quả. Từ quan điểm thấu hiểu, nó giúp cho Charles biến từ khóa thành ngôn ngữ, ông cho biết, giám đốc tìm kiếm Google Ben Gomes .
Càng nhiều văn bản, càng hiểu rõ hơn, thì ông nói, phó chủ tịch nghiên cứu của Google, Jeff Dean, và may mắn thay, không thiếu tài liệu bằng văn bản nào mà Google có thể đổ vào BERT. (Và ồ, phần viết tắt của hai phần của từ viết tắt tham khảo thực tế là kỹ thuật này tránh xa thực tiễn phân tích văn bản thông thường một từ một lúc từ trái sang phải.)
Sử dụng siêu máy tính mà nó tự thiết kế để đào tạo các mô hình học máy , Google đang áp dụng BERT để giúp thuật toán tìm kiếm của mình hiểu sâu hơn về các truy vấn tìm kiếm và các trang web có chứa thông tin liên quan. Các công ty công nghệ khác đã chấp nhận BERT và đang sử dụng các biến thể của riêng họ cho nhiều mục đích khác nhau: chẳng hạn, Facebook đang sử dụng một phiên bản có tên RoBERTa trong nghiên cứu chatbot . Nhưng những tinh chỉnh tìm kiếm mới này của Google là một ví dụ ban đầu của BERT ra khỏi phòng thí nghiệm và cải thiện một trong những dịch vụ được sử dụng rộng rãi nhất trên thế giới.
Việc đào tạo BERT mới chỉ là một trong một loạt các yếu tố mà Google yêu cầu để chọn kết quả cho bất kỳ tìm kiếm nào; công ty nói rằng nó sẽ đi vào hoạt động trong khoảng 1 trên 10 tìm kiếm. Nhưng 10% đó nên bao gồm một số trong những người có khả năng đánh bại Google trong quá khứ, chẳng hạn như Taylor Swift bao nhiêu tuổi khi Kanye lên sân khấu? và người Do thái có phải là người làm việc rất nhiều không?
Trước BERT, Google không hiểu rằng truy vấn này liên quan đến việc đứng lên trong khi làm việc.
Cuối cùng, BERT có thể sẽ không có tác động rõ ràng đến kết quả như các cột mốc trong quá khứ của Google như tìm kiếm phổ quát và biểu đồ tri thức , cả hai đều sửa đổi cơ bản cách trình bày kết quả tìm kiếm theo cách bạn không thể không chú ý. Với việc bổ sung BERT, kết quả vẫn giống nhau; nếu BERT làm cho họ tốt hơn, bạn sẽ có lợi cho giáo dục nhưng bạn sẽ không bao giờ biết rằng họ sẽ thua kém.
Và thậm chí sau đó, Nayak vui vẻ thừa nhận rằng có những trường hợp khi kết quả tìm kiếm bị nhiễm BERT kém hơn so với kết quả tìm kiếm cũ. Tại sự kiện báo chí, anh ta đưa ra một ví dụ: Khi được hỏi thì bang nào ở phía nam Nebraska? kết quả BERT liên quan đến khu phố South Nebraska ở Tampa, Florida, và không chỉ ít liên quan hơn người tiền nhiệm không phải BERT mà còn vô dụng. Nhưng thử nghiệm của Google cho thấy những trường hợp như vậy đủ hiếm khi sử dụng BERT mang lại lợi thế tổng thể rõ ràng, sẽ tăng lên khi công ty điều chỉnh công nghệ theo thời gian.
Nay BERT không giống như một viên đạn ma thuật giải quyết mọi vấn đề, nhưng nó giải quyết được rất nhiều vấn đề, ông Nayak nói. Vẫn còn nhiều việc phải làm.
Không có nhận xét nào:
Đăng nhận xét