Toyo Construction ứng dụng AI tạo sinh để giám sát và phân tích tức thời tình trạng công trường
Cảnh báo rủi ro được thông báo bằng âm thanh và hiển thị trên màn hình
Ngày 12/2/2026

Tổng quan hệ thống (từ thông cáo báo chí)

Hình ảnh màn hình (từ thông cáo báo chí)
Toyo Construction đã phát triển một hệ thống sử dụng AI tạo sinh nhằm giám sát và phân tích rủi ro tai nạn lao động thông qua hình ảnh camera tại công trường xây dựng. Hệ thống kết nối với dịch vụ AI đám mây thương mại thông qua API.
Máy tính đặt tại công trường sẽ trích xuất hình ảnh từ camera theo khoảng thời gian tùy chọn, sau đó AI tạo sinh phân tích tình trạng hiện trường và hiển thị thông tin cảnh báo rủi ro trên màn hình, đồng thời phát thông báo bằng giọng nói. Trong tương lai, hệ thống dự kiến sẽ được tích hợp với các thiết bị thi công và thiết bị đo lường khác nhằm nâng cao công nghệ hiện có và phát triển các giải pháp mới.
Công nghệ mới được phát triển với tên gọi “Hệ thống phân tích hình ảnh AI tạo sinh (VL Monitor)”. Hệ thống sử dụng công nghệ AI tích hợp xử lý đồng thời hình ảnh và ngôn ngữ – VLM (Vision-Language Model).
Hình ảnh được cắt từ camera hiện trường sẽ được gửi qua API cùng với các câu lệnh hướng dẫn (prompt) đã đăng ký trước. AI sẽ phân tích và trả về kết quả dưới dạng mô tả văn bản và thông báo bằng giọng nói.
Trên màn hình máy tính có thể thiết lập các “vùng cảnh báo” – khu vực có nguy cơ va chạm với máy móc thi công hoặc vật nâng. Khi người hoặc vật thể được chỉ định trong prompt đi vào khu vực cảnh báo, hệ thống sẽ phát thông báo cảnh báo.
Trước đây, công ty đã triển khai các hệ thống nhận diện hình ảnh dựa trên học máy để tự động phát hiện công nhân hoặc tàu thuyền tại công trường. Tuy nhiên, phương pháp này yêu cầu huấn luyện trước cho từng đối tượng và chỉ nhận diện trong phạm vi đã thiết lập.
Với công nghệ mới, ngoài việc giám sát đối tượng, hệ thống còn có thể linh hoạt phân tích tình huống làm việc và các thay đổi tại hiện trường. Nhân viên công trường có thể điều chỉnh prompt theo từng loại công việc để tối ưu giám sát. Toyo Construction đã nộp đơn xin cấp bằng sáng chế cho công nghệ này.
Giải thích ảnh 1
Ảnh này là giao diện minh họa của hệ thống VL Monitor – phân tích hình ảnh bằng AI tạo sinh tại công trường xây dựng. Dưới đây là phần mô tả và dịch các nội dung chính trên màn hình:
Các thành phần chính trên giao diện
Góc trái – Hình ảnh camera (カメラ映像)
Hiển thị hình ảnh trực tiếp từ công trường:
-
Một xe cẩu đang nâng khối kim loại
-
Hai công nhân đứng gần khu vực nâng
-
Vùng màu đỏ được đánh dấu là “警戒エリア” (Khu vực cảnh báo)
Khung chú thích phía trên
生成AIによる分析結果を説明文の表示と音声で読み上げ
→ “Hiển thị kết quả phân tích của AI tạo sinh bằng văn bản và đọc bằng giọng nói.”
Biểu tượng loa bên phải cho thấy hệ thống có chức năng phát cảnh báo bằng âm thanh.
Khung bên phải – Kết quả phân tích (分析結果)
Nội dung AI phân tích gồm:
-
【作業の概要】Tổng quan công việc
Đang thực hiện công việc nâng khối kim loại bằng cần cẩu. -
【作業員の人数】Số lượng công nhân
2 người -
【保護具着用の有無】Tình trạng trang bị bảo hộ
Cả hai công nhân đều đội mũ bảo hộ -
【作業員の危険状況】Tình trạng nguy hiểm
-
Công nhân bên trái đang chạm vào vật được nâng
-
Công nhân bên phải đứng gần tải trọng đang treo
-
-
【作業員の吊荷への接近状況】Khoảng cách tới vật nâng
-
Bên trái: đang tiếp xúc (rất nguy hiểm)
-
Bên phải: cách khoảng 1–2 mét
-
Cảnh báo màu đỏ phía dưới
警戒エリア侵入
→ “Xâm nhập khu vực cảnh báo”
Nội dung:
-
Công nhân bên trái đang chạm vào vật trong khu vực cảnh báo
-
Công nhân bên phải đứng gần khu vực nguy hiểm
Ghi chú phía dưới hình camera
生成AIが警戒エリアに侵入したと判断したとき警告文を画面に表示
→ “Khi AI tạo sinh xác định có xâm nhập khu vực cảnh báo, hệ thống sẽ hiển thị thông báo cảnh báo trên màn hình.”
Ý nghĩa công nghệ thể hiện trong ảnh
Hệ thống:
-
Phân tích đồng thời hình ảnh và ngữ cảnh công việc
-
Xác định nguy cơ tiếp xúc với vật nâng
-
Đánh giá khoảng cách an toàn
-
Cảnh báo bằng cả văn bản và âm thanh
-
Không chỉ nhận diện đối tượng, mà còn hiểu tình huống làm việc
Đây là ví dụ điển hình của Vision-Language Model (VLM) ứng dụng trong an toàn lao động xây dựng.
Giải thích ảnh 2
Bên trái: 工事現場 – Công trường xây dựng
カメラ – Camera
Camera ghi lại 映像 – video tại công trường.
パソコン – Máy tính
Máy tính chạy phần mềm VLモニター (VL Monitor) để:
-
Nhận dữ liệu hình ảnh từ camera
-
Trích xuất khung hình từ video
Phần giữa: Kết nối lên Cloud
Dòng chữ phía trên:
任意の間隔で映像から画像を切り出しクラウドAIサービスのAPIを呼び出す
→ “Cắt ảnh từ video theo khoảng thời gian tùy ý và gọi API của dịch vụ AI trên nền tảng đám mây.”
Trong đám mây có:
-
画像 + プロンプト
→ “Hình ảnh + Prompt (câu lệnh mô tả/yêu cầu phân tích)” -
説明文
→ “Văn bản mô tả/kết quả phân tích”
Mũi tên hai chiều cho thấy:
-
Máy tính gửi ảnh + prompt lên cloud
-
Cloud trả lại phần mô tả bằng văn bản
Bên phải: クラウド型AIサービス – Dịch vụ AI trên nền tảng đám mây
-
API (bánh răng)
-
生成AI – AI tạo sinh
Tức là hệ thống sử dụng Generative AI qua API để:
-
Phân tích hình ảnh
-
Hiểu ngữ cảnh
-
Tạo mô tả bằng ngôn ngữ tự nhiên
Hiểu đơn giản kiến trúc hệ thống
Quy trình hoạt động:
Camera ghi hình công trường
Máy tính cắt ảnh theo chu kỳ (ví dụ mỗi 5–10 giây)
Gửi ảnh + prompt lên AI cloud
AI phân tích và trả về mô tả tình huống
Hệ thống dùng kết quả đó để cảnh báo hoặc hiển thị
Điểm quan trọng của mô hình này
Đây không phải AI chạy toàn bộ tại edge (on-site), mà là:
-
Edge: chỉ thu hình và tiền xử lý
-
Intelligence chính: nằm ở Cloud
-
Dễ mở rộng, dễ cập nhật model
-
Có thể nâng cấp AI mà không cần thay phần cứng tại công trường
Nếu đặt trong bối cảnh chuyển đổi số ngành xây dựng, đây là bước chuyển từ:
-
Computer Vision truyền thống (chỉ detect object)
sang -
Vision-Language AI (hiểu tình huống + sinh mô tả + cảnh báo thông minh)

