CÔNG TY TNHH DỊCH THUẬT CHUYÊN NGHIỆP QUỐC TẾ (INTER-PROTRANS)

Tin Tức Ngành

GOOGLE DỊCH VẪN THỂ HIỆN THÀNH KIẾN VỀ GIỚI TÍNH. VÀ ĐÂY LÀ NHỮNG GÌ GOOGLE ĐANG THỰC HIỆN ĐỂ GIẢI QUYẾT VẤN ĐỀ NÀY

04/08/2021

Trong quá trình cố gắng không ngừng để giảm sự phân biệt giới tính trong dịch tự động bằng máy (machine translation, viết tắt là MT), Google đã phát hành bộ dữ liệu đã được dịch về các tiểu sử trên Wikipedia. Theo các nhà nghiên cứu của Google, mục đích cuối cùng là để cải thiện hệ thống học tập của máy, tập trung vào giới tính và đại từ trong bản dịch bằng cách đưa ra một điểm chuẩn về độ chính xác.

 

“Bởi vì các tiểu sử trên Wikipedia được viết khá tốt, đa dạng về mặt địa lý, chứa nhiều câu và đề cập đến các chủ thể ở ngôi thứ ba (và do đó chứa nhiều đại từ), nên chúng thường có khả năng cao bị lỗi dịch phổ biến liên quan đến giới tính. Điều này thường xảy ra khi các bài viết đề cập rõ ràng đến một người trong các câu đầu của đoạn văn, nhưng trong những câu sau thì không ”các nhà nghiên cứu cho biết trong một bài đăng trên blog ngày 24 tháng 6 năm 2021.

Họ cho biết tập dữ liệu đã được dịch về các tiểu sử trên Wikipedia có thể được sử dụng để đánh giá sự phân biệt giới tính trong đầu ra của MT cùng với các lỗi dịch thuật phổ biến - trong đó, các nhà nghiên cứu đã chỉ ra ba lỗi gồm lỗi bỏ qua đại từ, lỗi sở hữu và lỗi thỏa thuận giới tính trong ngữ pháp (gender agreement)

Lỗi bỏ qua đại từ xảy ra trong một số ngôn ngữ nhất định như tiếng Nhật, tiếng Hindi, tiếng Hàn. Giống như tên gọi, lỗi này xảy ra khi đại từ bị bỏ đi khi chúng có thể bị suy diễn..

Lỗi sở hữu xảy ra do các đại từ trong tiếng Anh, chẳng hạn như “của anh ấy (his)” và “của cô ấy (her)”, xác định giới tính nhưng những đại từ khác thì không, chẳng hạn như “của tôi (my)” và “của bạn (your)”. Ví dụ, so sánh với tiếng Pháp, trong đó từ sở hữu phải đồng nhất với danh từ mà chúng làm rõ (ví dụ: “mon” cho nam, “ma” cho nữ, v.v.), trong khi trong tiếng Anh “my” sẽ áp dụng cho cả hai giới.

Lỗi thỏa thuận giới tính trong ngữ pháp liên quan đến việc trong một ngôn ngữ, các từ bổ ngữ sẽ đồng nhất với giới tính của một người. Ví dụ, trong tiếng Tây Ban Nha, “la médica” sẽ được sử dụng cho một bác sĩ nữ“el médico” cho nam, trong khi tiếng Anh sẽ không phân biệt như vậy. Cũng trong cùng một bài đăng trên blog, có viết một câu mà nếu Google Dịch dịch câu đó vào ngày hôm nay, sẽ có ba lỗi sau. Trong tiếng Anh, câu này có nội dung như sau: “Marie Curie sinh ra ở Warsaw. Bà ấy là một nhà khoa học xuất sắc (tiếng Anh: the distinguished scientist) đã nhận giải Nobel năm 1903 và năm 1911”.

Ở phần viết này, Google Dịch sử dụng “El differenceido científico” (tạm dịch: nhà khoa học khác biệt) để chỉ Marie Curie bằng tiếng Tây Ban Nha“Der angesehene Wissenschaftler” (tạm dịch: nhà khoa học đáng kính) bằng tiếng Đức và như thế.

Theo nhóm nghiên cứu của Google, họ đã “trích xuất dữ liệu tiểu sử từ Wikipedia về nghề nghiệp, chuyên ngành, công việc và / hoặc hoạt động” để xây dựng một tập hợp thể hiện giới tính và địa lý một cách bình đẳng. Do đó, tập dữ liệu đã bao gồm các mục về những người từ hơn 90 quốc gia trên tất cả các khu vực trên thế giới.

Google cho biết mặc dù tập dữ liệu mới được phát hành cho phép mộ phân tích sự phân biệt giới tính trong MT theo một phương thức mới, được ra mắt vào tháng 4 năm 2020, nhưng tập dữ liệu này “không được nhắm đến để giải quyết toàn bộ vấn đề”.

Thay vì đưa ra các phương pháp tối ưu để khắc phục sự phân biệt giới tính, nhóm Google cho biết họ chỉ nhắm đến mục tiêu “thúc đẩy quá trình cải tiến đối với thách thức này trong cộng đồng nghiên cứu toàn cầu”.

  • Skype Me™!

    Tư vấn 1
    (+84) (028) 39.111.959

Hổ trợ trực tuyến