How to find the largest files

Recently, my company website wants to host media files (user uploaded files) to some cloud storage service. But in preparation, we realized that our media folder is too big, about 48GiB. We need to delete unnecessary files to save the storage cost. Part of it, we need to hunt down big files.

I looked around to find a command to list largest files in Linux. Most of the tutorials on Internet tell you to use a combination of commands, which is often du | sort | head, or find | sort | head. None of them satisfies me, because:

  • Combination with du only gives result of directories, not files.

...

Theo dõi bài mới qua feeds

Vừa rồi có bạn đề nghị mình thêm tính năng RSS Feeds vào website để bạn ấy dễ theo dõi khi nào có bài mới, nên mình tranh thủ làm trong dịp nghỉ lễ. Bây giờ thì tính năng đã sẵn sàng.

Tuy gọi là RSS Feeds nhưng mình cung cấp feeds ở định dạng Atom và JSONFeed, thay vì RSS.

Trên đầu trang bạn sẽ thấy icon của feeds, để lấy URL

...

Querying EdgeDB with named parameters in Rust

Recently I rebuilt this website, using Rust as backend programming language and EdgeDB as database. EdgeDB is great, but its Rust support is still weak comparing to other languages. One very important, but missing, feature is to support named parameters in query. Fortunately, there is already a base for the support in the future. In this post, we will exploit that minimum base to let our work done.

Current state

As the time of this writing, if you look into edgedb-tokio, the official Rust client library, documentation and example, you will see that it only supports using positional (numbered) parameters:

...

Tận dụng phong cách xử trí lỗi của Rust trong lập trình web

Gần đây, tôi chuyển đổi website này sang viết bằng Rust và rất tâm đắc với phong cách xử trí lỗi (error handling) của Rust, khi ứng dụng vào việc viết web. tôi sẽ trình bày tại sao.

Trước Rust, hầu hết các ngôn ngữ lập trình tôi kinh qua đều dùng phong cách xử trí lỗi là exception handling. Một hàm đang chạy nửa chừng, nếu gặp lỗi sẽ bắn ra một exception và dừng ngay tại đó. Hàm nào gọi nó bên ngoài sẽ dùng cấu trúc try ... except, try ... catch để phòng bị, bắt những exception này và có hướng xử trí tương ứng khi exception xảy ra. Cách làm này có ưu điểm là không cần nghĩ nhiều, giúp lập trình viên làm nhanh, cho ra sản phẩm lẹ. Tuy nhiên nó có nhược điểm là nhìn vào signature (mô tả kiểu dữ liệu đầu vào và đầu ra) của một hàm, không có cách nào biết được hàm đó có thể bắn ra những exception nào. Rust thì khác, những lỗi nào có thể xảy ra sẽ buộc phải khai báo trong signature của hàm. Ví dụ nhìn signature của hàm dùng để parse một chuỗi thành số nguyên:

fn from_str(src: &str) -> Result<i8, ParseIntError>
...

Đăng ký tạm trú cho người thuê nhà tại Vinhomes Grand Park

Đăng ký tạm trú vẫn là một hành trình gian nan, mặc dù thủ tục hành chính đã được cải cách nhiều. Sau đây là kinh nghiệm đăng ký tạm trú cho người thuê nhà ở Vinhomes Grand Park, hi vọng giúp mọi người có thể làm nhanh hơn.

Vinhomes Grand Park nằm vắt qua hai phường, Long Thạnh Mỹ và Long Bình. Bài dưới đây chỉ hướng dẫn đăng ký tại phường Long Bình, vì mình chưa kịp đăng ký xong tại phường Long Thạnh Mỹ thì đã chuyển nhà.

Hiện nay việc đăng ký tạm trú chỉ được tiến hành online qua website Cổng Dịch vụ công. Việc thao tác trên website này không khó, nhất là biểu mẫu trên ấy được lập trình để một số nội dung được điền sẵn cho bạn, giúp bạn không phải gõ nhiều, đỡ sai sót. Vậy vướng mắc ở đâu? Vướng mắc là ở việc ghi địa chỉ thế nào, và hiểu nhầm về khái niệm "chủ hộ".

Nói về địa chỉ tạm trú, thì địa chỉ được quản lý trong sổ sách của Công an không giống như bạn nghĩ. Giả sử mã căn hộ của bạn là S8041326, tức là ở tòa S804, tầng 13, căn hộ số 26, thì địa chỉ của bạn không phải là "S8041326, Vinhomes Grand Park" đâu. Địa chỉ mà bạn cần khai báo với Công an sẽ là: "26.13 Tòa nhà chung cư S804 (Dự án Khu Dân cư và Công viên Phước Thiện), 88 Phước Thiện, KP. Phước Thiện, P. Long Bình, TP. Thủ Đức, TP. Hồ Chí Minh".

...

How to split Nginx logs for bot visits

Logs are the valuable resource for debugging. When we have a website, we also often look into Nginx logs to see what happened with our website. But they are often cluttered by the visit of search bots, which make us difficult to find the noteworthy lines. So how to tell Nginx to log the search bot activities to another file, to make our access log cleaner?

To do that, first, create an file to help Nginx distinguish who is search bot. Create a file bot_definition.conf in /etc/nginx/conf.d folder, with this content:

map $http_user_agent $is_bot {
        ~Pingdom 1;
...

Website phiên bản mới từ ruột

Hôm nay mình vừa triển khai phiên bản mới của website này. Nhìn giao diện thì không khác gì nhưng bên trong là đã làm mới hoàn toàn. Mới từ ngôn ngữ lập trình đến database.

Website này được mình viết lại bằng ngôn ngữ Rust và dùng database EdgeDB. Phiên bản cũ được viết bằng Python, dựa trên framework Flask, và database thì dùng PostgeSQL, được viết cũng khá lâu rồi (khoảng 10 năm), lại không được chăm sóc, cập nhật (trừ một đợt cập nhật lớn về frontend năm kia) nên bộ code rất cũ. Nhân việc mình đang có hứng luyện tay nghề về Rust nên mình quyết định dùng website này làm "bài tập". Về mặt frontend thì website này áp dụng cả hai kĩ thuật:

  • Server side rendering: Dùng cho các trang bên ngoài, mà khách truy cập sẽ nhìn thấy. Với các trang này thì mình dùng MiniJinja để render dữ liệu ra HTML.
...

Tại sao trên Linux hay dùng những định dạng file nén như *.gz, *.xz thay vì *.zip, *.7z?

Những bạn đang dùng Windows mà tìm hiểu về Linux sẽ thấy trên Linux, những định dạng file nén quen thuộc như *.zip, *.7z lại không được ưa chuộng, mà lại thấy người ta hay sử dụng *.gz, *.tar.gz, *.zz, *.tar.xz, mặc dù cả định dạng và thuật toán của zip, 7zip đều là mã nguồn mở. Thế thì tại sao?

Đầu tiên, hãy nói về một định dạng file nén khác cực kì được ưa chuộng trên Windows là *.rar. Lý do định dạng này vắng mặt trên Linux thì dễ hiểu hơn, đó là nó không phải là phần mềm nguồn mở.

Quay lại *.zip*.7z. Lý do chúng không được ưa chuộng là vì chúng không hỗ trợ nén và giải nén theo kiểu "cuốn chiếu". Theo kiểu "cuốn chiếu" nghĩa là, ví dụ như bạn đang download một file nén lớn và bạn muốn download tới đâu, giải nén tới đó, không phải chờ download xong xuôi rồi mới giải nén. Tính năng "cuốn chiếu" này quan trọng đối với người dùng Linux vì trên Linux, môi trường dòng lệnh rất mạnh, có một tính năng gọi là "pipe" và tính "cuốn chiếu" kết hợp với "pipe" thì giúp công việc hiệu quả gấp nhiều lần.

Ví dụ, tôi hay sử dụng "pipe" (truyền dữ liệu đầu ra của chương trình này vào đầu vào của chương trình khác) khi tôi muốn copy cơ sở dữ liệu từ server về máy cá nhân:

...

Suppress Django error reporting email

In Django, by default, when an exception raises, and is not handled, Django will send an email to people listed in ADMINS, reporting the error. But in many setup, we already have other mechanism to track those errors (like throwing to Sentry), so those emails will become annoying. How to stop Django from sending those emails.

We can do it by overriding mail_admins log handler, to use logging.NullHandler as handler class, like this:

LOGGING = {
    'version': 1,
...

Phần mềm để nạp firmware OpenWrt trong chế độ recovery

Gần đây mình lại có duyên đụng vào OpenWrt và router wifi. Mình phải nạp firmware OpenWrt cho một số router đã bị bricked (HĐH bị liệt, không chạy). Vì đã bị bricked nên chỉ có thể nạp trong chế độ recovery, qua cổng serial. Nay mình liệt kê một số phần mềm để dùng cho việc này.

Truy cập qua cổng serial

Để truy cập qua cổng serial, mình dùng PySerial thông qua lệnh sau:

$ pyserial-miniterm /dev/ttyUSB0 115200
...