Chuyển đổi Unicode dựng sẵn & tổ hợp với Python

Dạo này các ứng dụng với dữ liệu tiếng Việt đang ngày một nhiều, trong đó vấn đề sai khác giữa Unicode dựng sãn và tổ hợp, tuy nhỏ, nhưng cũng gây mất chút kha khá thời gian debug cho những người mới vào nghề. Mình chia sẻ xíu kinh nghiệm này, để việc phát triển ứng dụng tiếng Việt trở nên trơn tru hơn, và cũng để "khoe hàng" về hệ sinh thái giàu mạnh của Python.

Tưởng tượng một tình huống sau. Ứng dụng của bạn cho người dùng nhập vào một chuỗi tiếng Việt, khi nhận được chuỗi, phần mềm sẽ dò trong cơ sở dữ liệu để chọn ra bản ghi nào ăn khớp với chuỗi đó. Cơ sở dữ liệu này được một người khác nhập liệu. Bạn đã chắc chắn rằng chuỗi đó có tồn tại trong cơ sở dữ liệu, nhưng không hiểu sao phần mềm so sánh, dò tìm không ra. Hóa ra là người nhập liệu, khi gõ chuỗi vào thì dùng Unicode tổ hợp (decomposed), trong khi người dùng lúc nhập chuỗi tìm kiếm vào thì dùng Unicode dựng sẵn (composed). Dưới dạng chuỗi byte thì hai chuỗi này không giống nhau, nên bằng biện pháp so sánh chuỗi unicode thông thường, phần mềm sẽ không nhận ra.

Lấy ví dụ một chuỗi sau, Tiếng Việt bão táp, nếu là Unicode dựng sãn, khi thể hiện dưới dạng chuỗi byte, dàn theo bảng mã UTF-8, thì là chuỗi byte này:

b'Ti\xe1\xba\xbfng Vi\xe1\xbb\x87t b\xc3\xa3o t\xc3\xa1p'

Trong khi nếu là Unicode tổ hợp, khi thể hiện ở dạng chuỗi byte UTF-8, thì sẽ thành:

b'Tie\xcc\x82\xcc\x81ng Vie\xcc\xa3\xcc\x82t ba\xcc\x83o ta\xcc\x81p'

Vậy muốn so sánh hai chuỗi, phải đưa chúng về cùng một kiểu Unicode trước. Cách làm ra sao?

Trên mạng có lưu truyền một cách thô thiển là tạo một bảng đối chiếu, chuyển đổi từng chữ cái một, như ví dụ này.

Đây rõ ràng là một phương án "vai u thịt bắp". Có một giải pháp đơn giản hơn nhiều. Trong thư viện chuẩn của Python, có module unicodedata đã có sẵn chức năng này. Ví dụ:

>>> import unicodedata

>>> to_hop = 'Tiếng Việt bão táp'                                               

>>> dung_san = unicodedata.normalize('NFC', to_hop)

>>> to_hop.encode()
b'Tie\xcc\x82\xcc\x81ng Vie\xcc\xa3\xcc\x82t ba\xcc\x83o ta\xcc\x81p'


>>> dung_san.encode()
b'Ti\xe1\xba\xbfng Vi\xe1\xbb\x87t b\xc3\xa3o t\xc3\xa1p'

Như vậy, bí quyết là dùng hàm unicodedata.normalize(), truyền vào tham trị "NFC" nếu muốn chuyển đổi thành dựng sẵn, truyền vào "NFD" nếu muốn chuyển đổi thành tổ hợp. Mẹo nhớ: Chữ "C" trong "NFC" nghĩa là "composed", tức là "Unicode dựng sẵn".

Thông tin sâu thêm một chút về kĩ thuật. Lấy ví dụ chữ "ế", nếu ở kiểu "dựng sẵn" thì chữ này sẽ được dành riêng một vị trí (U+1EBF) trong bảng Unicode luôn, trong khi nếu ở kiểu "tổ hợp" thì các dấu thanh sẽ được tách ra (decomposed), đại diện bằng các ô khác trong bảng Unicode.

e unicode

Để phát triển giải pháp này lên một bước nữa, ta sẽ làm cho việc chuyển đổi này xảy ra một cách tự động, vô hình trong phần mềm. Quay về tình huống kể trên, đó là tình huống trong một dự án cũ mà tôi tham gia. Tôi đã làm thêm một lớp validation để làm sạch dữ liệu đầu vào, ở cả hai khâu: khâu nhập liệu và khâu người dùng tìm kiếm, chuyển đổi chúng về Unicode dựng sẵn hết. Với mục đích kiểm tra sự hợp lệ (validate) dữ liệu ở các dự án Python thì tôi thường chọn thư viện Pydantic. Công dụng của nó là: kiểm tra sự hợp lệ dữ liệu đầu vào, nếu không hợp lệ thì hoặc là báo lỗi, hoặc là tự gò nắn cho đúng rồi nhận vào. Công dụng này tương tự như Django form.

Lấy ví dụ, ứng dụng của ta cần tiếp nhận dữ liệu bên ngoài truyền vào với cấu trúc như sau:

class Person:
    name: str
    age: int

và dữ liệu truyền vào có thể là một chuỗi JSON:

{"name": "Ếch Xanh", "age": 11}

Ta luôn cần bước kiểm tra hợp lệ, vì không thể đảm bảo lúc nào dữ liệu truyền vào cũng đúng ý, nó có thể thiếu một vài field, chuỗi dư kí tự lạ, hoặc không đúng kiểu dữ liệu (cần integer nhưng lại truyền vào string):

{"name": "Mèo Đen   ", "age": "09"}

Khi dùng Pydantic thì tôi sẽ implement cấu trúc trên như sau:

from pydantic import BaseModel                                              

class Person(BaseModel):
    name: str 
    age: int

Dùng thử:

>>> Person.parse_obj({"name": "Mèo Đen   ", "age": "09"})                       
Person(name='Mèo Đen   ', age=9)

Để đảm bảo dữ liệu của field "name" sẽ được tự động chuyển đổi thành Unicode dựng sẵn, tôi sẽ định nghĩa một kiểu field mới cho Pydantic:

from pydantic import ConstrainedStr


class VinaStr(ConstrainedStr):
    '''
    A constrained string type which automatically normalizes Vietnamese Unicode string.

    It converts from decomposed ("tổ hợp") to composed ("dựng sẵn") Unicode.
    '''
    strip_whitespace = True

    @classmethod
    def validate(cls, value: str):
        cleaned = super().validate(value)
        if cleaned:
            return unicodedata.normalize('NFC', cleaned)
        return cleaned

Áp dụng vào class Person bên trên:

class Person(BaseModel):
    name: VinaStr
    age: int

Thử lại với dữ liệu hơi không sạch:

>>> p = Person.parse_obj({'name': ' Hoẵng Con ', 'age': '04'})

>>> p
Person(name='Hoẵng Con', age=4)

>>> p.name.encode()
b'Ho\xe1\xba\xb5ng Con'

Có thể thấy rằng ở field name, chuỗi đầu vào vừa được xóa sạch kí tự khoảng trắng dư, vừa được chuyển đổi Unicode, và field age thì chuỗi được biến thành số nguyên.

Xem lại code từ đầu với hình động cho đỡ chán:

animation

Như vậy tôi đã trình bày xong cách chuyển đổi Unicode tổ hợp 🡘 dựng sẵn trong Python, tặng kèm bí quyết về xử lý dữ liệu nói chung trong công việc. Mong rằng cộng đồng lập trình viên Việt Nam sẽ áp dụng các thói quen thực hành tốt để nâng cao chất lượng sản phẩm hơn nữa.