Toyo Construction ứng dụng AI tạo sinh để giám sát và phân tích tức thời tình trạng công trường

Toyo Construction ứng dụng AI tạo sinh để giám sát và phân tích tức thời tình trạng công trường

    Toyo Construction ứng dụng AI tạo sinh để giám sát và phân tích tức thời tình trạng công trường

    Cảnh báo rủi ro được thông báo bằng âm thanh và hiển thị trên màn hình

    Ngày 12/2/2026

    Tổng quan hệ thống (từ thông cáo báo chí)

    Hình ảnh màn hình (từ thông cáo báo chí)

    Toyo Construction đã phát triển một hệ thống sử dụng AI tạo sinh nhằm giám sát và phân tích rủi ro tai nạn lao động thông qua hình ảnh camera tại công trường xây dựng. Hệ thống kết nối với dịch vụ AI đám mây thương mại thông qua API.

    Máy tính đặt tại công trường sẽ trích xuất hình ảnh từ camera theo khoảng thời gian tùy chọn, sau đó AI tạo sinh phân tích tình trạng hiện trường và hiển thị thông tin cảnh báo rủi ro trên màn hình, đồng thời phát thông báo bằng giọng nói. Trong tương lai, hệ thống dự kiến sẽ được tích hợp với các thiết bị thi công và thiết bị đo lường khác nhằm nâng cao công nghệ hiện có và phát triển các giải pháp mới.

    Công nghệ mới được phát triển với tên gọi “Hệ thống phân tích hình ảnh AI tạo sinh (VL Monitor)”. Hệ thống sử dụng công nghệ AI tích hợp xử lý đồng thời hình ảnh và ngôn ngữ – VLM (Vision-Language Model).

    Hình ảnh được cắt từ camera hiện trường sẽ được gửi qua API cùng với các câu lệnh hướng dẫn (prompt) đã đăng ký trước. AI sẽ phân tích và trả về kết quả dưới dạng mô tả văn bản và thông báo bằng giọng nói.

    Trên màn hình máy tính có thể thiết lập các “vùng cảnh báo” – khu vực có nguy cơ va chạm với máy móc thi công hoặc vật nâng. Khi người hoặc vật thể được chỉ định trong prompt đi vào khu vực cảnh báo, hệ thống sẽ phát thông báo cảnh báo.

    Trước đây, công ty đã triển khai các hệ thống nhận diện hình ảnh dựa trên học máy để tự động phát hiện công nhân hoặc tàu thuyền tại công trường. Tuy nhiên, phương pháp này yêu cầu huấn luyện trước cho từng đối tượng và chỉ nhận diện trong phạm vi đã thiết lập.

    Với công nghệ mới, ngoài việc giám sát đối tượng, hệ thống còn có thể linh hoạt phân tích tình huống làm việc và các thay đổi tại hiện trường. Nhân viên công trường có thể điều chỉnh prompt theo từng loại công việc để tối ưu giám sát. Toyo Construction đã nộp đơn xin cấp bằng sáng chế cho công nghệ này.

    Giải thích ảnh 1

    Ảnh này là giao diện minh họa của hệ thống VL Monitor – phân tích hình ảnh bằng AI tạo sinh tại công trường xây dựng. Dưới đây là phần mô tả và dịch các nội dung chính trên màn hình:


    Các thành phần chính trên giao diện

    Góc trái – Hình ảnh camera (カメラ映像)

    Hiển thị hình ảnh trực tiếp từ công trường:

    • Một xe cẩu đang nâng khối kim loại

    • Hai công nhân đứng gần khu vực nâng

    • Vùng màu đỏ được đánh dấu là “警戒エリア” (Khu vực cảnh báo)


    Khung chú thích phía trên

    生成AIによる分析結果を説明文の表示と音声で読み上げ
    → “Hiển thị kết quả phân tích của AI tạo sinh bằng văn bản và đọc bằng giọng nói.”

    Biểu tượng loa bên phải cho thấy hệ thống có chức năng phát cảnh báo bằng âm thanh.


    Khung bên phải – Kết quả phân tích (分析結果)

    Nội dung AI phân tích gồm:

    • 【作業の概要】Tổng quan công việc
      Đang thực hiện công việc nâng khối kim loại bằng cần cẩu.

    • 【作業員の人数】Số lượng công nhân
      2 người

    • 【保護具着用の有無】Tình trạng trang bị bảo hộ
      Cả hai công nhân đều đội mũ bảo hộ

    • 【作業員の危険状況】Tình trạng nguy hiểm

      • Công nhân bên trái đang chạm vào vật được nâng

      • Công nhân bên phải đứng gần tải trọng đang treo

    • 【作業員の吊荷への接近状況】Khoảng cách tới vật nâng

      • Bên trái: đang tiếp xúc (rất nguy hiểm)

      • Bên phải: cách khoảng 1–2 mét


    Cảnh báo màu đỏ phía dưới

    警戒エリア侵入
    → “Xâm nhập khu vực cảnh báo”

    Nội dung:

    • Công nhân bên trái đang chạm vào vật trong khu vực cảnh báo

    • Công nhân bên phải đứng gần khu vực nguy hiểm


    Ghi chú phía dưới hình camera

    生成AIが警戒エリアに侵入したと判断したとき警告文を画面に表示
    → “Khi AI tạo sinh xác định có xâm nhập khu vực cảnh báo, hệ thống sẽ hiển thị thông báo cảnh báo trên màn hình.”


    Ý nghĩa công nghệ thể hiện trong ảnh

    Hệ thống:

    • Phân tích đồng thời hình ảnh và ngữ cảnh công việc

    • Xác định nguy cơ tiếp xúc với vật nâng

    • Đánh giá khoảng cách an toàn

    • Cảnh báo bằng cả văn bản và âm thanh

    • Không chỉ nhận diện đối tượng, mà còn hiểu tình huống làm việc

    Đây là ví dụ điển hình của Vision-Language Model (VLM) ứng dụng trong an toàn lao động xây dựng.

    Giải thích ảnh 2

    Bên trái: 工事現場 – Công trường xây dựng

    カメラ – Camera

    Camera ghi lại 映像 – video tại công trường.

    パソコン – Máy tính

    Máy tính chạy phần mềm VLモニター (VL Monitor) để:

    • Nhận dữ liệu hình ảnh từ camera

    • Trích xuất khung hình từ video


    Phần giữa: Kết nối lên Cloud

    Dòng chữ phía trên:

    任意の間隔で映像から画像を切り出しクラウドAIサービスのAPIを呼び出す
    → “Cắt ảnh từ video theo khoảng thời gian tùy ý và gọi API của dịch vụ AI trên nền tảng đám mây.”

    Trong đám mây có:

    • 画像 + プロンプト
      → “Hình ảnh + Prompt (câu lệnh mô tả/yêu cầu phân tích)”

    • 説明文
      → “Văn bản mô tả/kết quả phân tích”

    Mũi tên hai chiều cho thấy:

    1. Máy tính gửi ảnh + prompt lên cloud

    2. Cloud trả lại phần mô tả bằng văn bản


    Bên phải: クラウド型AIサービス – Dịch vụ AI trên nền tảng đám mây

    • API (bánh răng)

    • 生成AI – AI tạo sinh

    Tức là hệ thống sử dụng Generative AI qua API để:

    • Phân tích hình ảnh

    • Hiểu ngữ cảnh

    • Tạo mô tả bằng ngôn ngữ tự nhiên


    Hiểu đơn giản kiến trúc hệ thống

    Quy trình hoạt động:

    Camera ghi hình công trường
    Máy tính cắt ảnh theo chu kỳ (ví dụ mỗi 5–10 giây)
    Gửi ảnh + prompt lên AI cloud
    AI phân tích và trả về mô tả tình huống
    Hệ thống dùng kết quả đó để cảnh báo hoặc hiển thị


    Điểm quan trọng của mô hình này

    Đây không phải AI chạy toàn bộ tại edge (on-site), mà là:

    • Edge: chỉ thu hình và tiền xử lý

    • Intelligence chính: nằm ở Cloud

    • Dễ mở rộng, dễ cập nhật model

    • Có thể nâng cấp AI mà không cần thay phần cứng tại công trường


    Nếu đặt trong bối cảnh chuyển đổi số ngành xây dựng, đây là bước chuyển từ:

    • Computer Vision truyền thống (chỉ detect object)
      sang

    • Vision-Language AI (hiểu tình huống + sinh mô tả + cảnh báo thông minh)

    Zalo
    Hotline