背景介绍
疲劳驾驶的危害不堪设想,据了解,21%的交通事故都因此而生,尤其是高速路上,大多数车辆都是长途驾驶,加之速度快,危害更加严重。
![](http://mmbiz.qpic.cn/mmbiz_gif/rDAib0gF5OjaEF8yzxBIlwLHUcAM4PxDD44HrkHuZIGrMp5xIjTia7kic0jIdmcOMI4HnLJiaB25fkagovDww3pibEg/640?wx_fmt=gif&wxfrom=5&wx_lazy=1)
相关部门一般都会建议司机朋友及时休息调整后再驾驶,避免酿成惨剧。
![](http://mmbiz.qpic.cn/mmbiz_jpg/rDAib0gF5OjaEF8yzxBIlwLHUcAM4PxDDEP9F03pj215f3ogHpRPEq6mbBJP5e5pUoXuOzBTUib5TiaQQJeCRSZRQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)
作为视觉开发人员,我们可否帮助驾驶人员设计一套智能检测嗜睡的系统,及时提醒驾驶员注意休息?如下图所示,本文将详细介绍如何使用Python和MediaPipe来实现一个嗜睡检测系统。![](http://mmbiz.qpic.cn/mmbiz_gif/rDAib0gF5OjaEF8yzxBIlwLHUcAM4PxDD2utfjUrcXemnCdSG90zGm7PAm3aJGiclic9C0ZZPpZGlEias17Bkh8y7A/640?wx_fmt=gif&wxfrom=5&wx_lazy=1)
实现步骤
思路:疲劳驾驶的司机大部分都有打瞌睡的情形,所以我们根据驾驶员眼睛闭合的频率和时间来判断驾驶员是否疲劳驾驶(或嗜睡)。关于MediaPipe前面已经介绍过,具体可以查看下面链接的文章:
我们使用Face Mesh来检测眼部关键点,Face Mesh返回了468个人脸关键点:
由于我们专注于驾驶员睡意检测,在468个点中,我们只需要属于眼睛区域的标志点。眼睛区域有 32 个标志点(每个 16 个点)。为了计算 EAR,我们只需要 12 个点(每只眼睛 6 个点)。对于左眼: [362, 385, 387, 263, 373, 380]
对于右眼:[33, 160, 158, 133, 153, 144]
选择的地标点按顺序排列:P1、P2、P3、P4、P5、P6 import cv2
import numpy as np
import matplotlib.pyplot as plt
import mediapipe as mp
mp_facemesh = mp.solutions.face_mesh
mp_drawing = mp.solutions.drawing_utils
denormalize_coordinates = mp_drawing._normalized_to_pixel_coordinates
%matplotlib inline
all_left_eye_idxs = list(mp_facemesh.FACEMESH_LEFT_EYE)
all_left_eye_idxs = set(np.ravel(all_left_eye_idxs))
all_right_eye_idxs = list(mp_facemesh.FACEMESH_RIGHT_EYE)
all_right_eye_idxs = set(np.ravel(all_right_eye_idxs))
all_idxs = all_left_eye_idxs.union(all_right_eye_idxs)
chosen_left_eye_idxs = [362, 385, 387, 263, 373, 380]
chosen_right_eye_idxs = [33, 160, 158, 133, 153, 144]
all_chosen_idxs = chosen_left_eye_idxs + chosen_right_eye_idx
![](http://mmbiz.qpic.cn/mmbiz_png/rDAib0gF5OjaEF8yzxBIlwLHUcAM4PxDDiaHx0YTCftZoYzIDoSOzC6skjDjYratwAubUX8QnhS4wywQl37C8x0A/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)
【2】检测眼睛是否闭合——计算眼睛纵横比(EAR)。
要检测眼睛是否闭合,我们可以使用眼睛纵横比(EAR) 公式:
![](http://mmbiz.qpic.cn/mmbiz_png/rDAib0gF5OjaEF8yzxBIlwLHUcAM4PxDDXK6qKs1284EbW1c2SXffhNxJUIdOrv6VJbLkhiarZNBcQNZBMJmKeuw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)
EAR 公式返回反映睁眼程度的单个
标量:
![](http://mmbiz.qpic.cn/mmbiz_png/rDAib0gF5OjaEF8yzxBIlwLHUcAM4PxDDEXlBOwSgdbS8Iahr4ASHZFDHuaQJCz36G3j9icQmoaeCaYibCaicnDgMg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)
1. 我们将使用 Mediapipe 的 Face Mesh 解决方案来检测和检索眼睛区域中的相关地标(下图中的点P 1 - P 6)。
2. 检索相关点后,会在眼睛的高度和宽度之间计算眼睛纵横比 (EAR)。
当眼睛睁开并接近零时,EAR 几乎是恒定的,而闭上眼睛是部分人,并且头部姿势不敏感。睁眼的纵横比在个体之间具有很小的差异。它对于图像的统一缩放和面部的平面内旋转是完全不变的。由于双眼同时眨眼,所以双眼的EAR是平均的。
![](http://mmbiz.qpic.cn/mmbiz_png/rDAib0gF5OjaEF8yzxBIlwLHUcAM4PxDDT8kHTuBl8gu7rRWAFnDrXAmXmLMrgkj5NLAVzibf5pSqX6LET4R9T9Q/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)
底部:为视频序列的几帧绘制的眼睛纵横比 EAR。存在一个闪烁。首先,我们必须计算每只眼睛的 Eye Aspect Ratio:![](http://mmbiz.qpic.cn/mmbiz_png/rDAib0gF5OjaEF8yzxBIlwLHUcAM4PxDDwsibpictNYzuTLr8yE7F6MIJ7USeNxq3K3DngAtFic2t2tFqrMVuRLkibg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)
为了计算最终的 EAR 值,作者建议取两个 EAR 值的平均值。![](http://mmbiz.qpic.cn/mmbiz_png/rDAib0gF5OjaEF8yzxBIlwLHUcAM4PxDDxiaTY2P1F83TsZT0meVAVTvD2Riac4v5yeZOEethxbmwUByAoPgqBraw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)
一般来说,平均 EAR 值在 [0.0, 0.40] 范围内。在“闭眼”动作期间 EAR 值迅速下降。
现在我们熟悉了 EAR 公式,让我们定义三个必需的函数:distance(…)、get_ear(…)和calculate_avg_ear(…)。
def distance(point_1, point_2):
"""Calculate l2-norm between two points"""
dist = sum([(i - j) ** 2 for i, j in zip(point_1, point_2)]) ** 0.5
return dist
get_ear (…)函数将.landmark属性作为参数。在每个索引位置,我们都有一个NormalizedLandmark对象。该对象保存标准化的x、y和z坐标值。def get_ear(landmarks, refer_idxs, frame_width, frame_height):
"""
Calculate Eye Aspect Ratio for one eye.
Args:
landmarks: (list) Detected landmarks list
refer_idxs: (list) Index positions of the chosen landmarks
in order P1, P2, P3, P4, P5, P6
frame_width: (int) Width of captured frame
frame_height: (int) Height of captured frame
Returns:
ear: (float) Eye aspect ratio
"""
try:
coords_points = []
for i in refer_idxs:
lm = landmarks[i]
coord = denormalize_coordinates(lm.x, lm.y,
frame_width, frame_height)
coords_points.append(coord)
P2_P6 = distance(coords_points[1], coords_points[5])
P3_P5 = distance(coords_points[2], coords_points[4])
P1_P4 = distance(coords_points[0], coords_points[3])
ear = (P2_P6 + P3_P5) / (2.0 * P1_P4)
except:
ear = 0.0
coords_points = None
return ear, coords_points
最后定义了calculate_avg_ear(…)函数:def calculate_avg_ear(landmarks, left_eye_idxs, right_eye_idxs, image_w, image_h):
"""Calculate Eye aspect ratio"""
left_ear, left_lm_coordinates = get_ear(
landmarks,
left_eye_idxs,
image_w,
image_h
)
right_ear, right_lm_coordinates = get_ear(
landmarks,
right_eye_idxs,
image_w,
image_h
)
Avg_EAR = (left_ear + right_ear) / 2.0
return Avg_EAR, (left_lm_coordinates, right_lm_coordinates)
让我们测试一下 EAR 公式。我们将计算先前使用的图像和另一张眼睛闭合的图像的平均 EAR 值。image_eyes_open = cv2.imread("test-open-eyes.jpg")[:, :, ::-1]
image_eyes_close = cv2.imread("test-close-eyes.jpg")[:, :, ::-1]
for idx, image in enumerate([image_eyes_open, image_eyes_close]):
image = np.ascontiguousarray(image)
imgH, imgW, _ = image.shape
custom_chosen_lmk_image = image.copy()
with mp_facemesh.FaceMesh(refine_landmarks=True) as face_mesh:
results = face_mesh.process(image).multi_face_landmarks
if results:
for face_id, face_landmarks in enumerate(results):
landmarks = face_landmarks.landmark
EAR, _ = calculate_avg_ear(
landmarks,
chosen_left_eye_idxs,
chosen_right_eye_idxs,
imgW,
imgH
)
cv2.putText(custom_chosen_lmk_image,
f"EAR: {round(EAR, 2)}", (1, 24),
cv2.FONT_HERSHEY_COMPLEX,
0.9, (255, 255, 255), 2
)
plot(img_dt=image.copy(),
img_eye_lmks_chosen=custom_chosen_lmk_image,
face_landmarks=face_landmarks,
ts_thickness=1,
ts_circle_radius=3,
lmk_circle_radius=3
)
如您所见,睁眼时的 EAR 值为0.28,闭眼时(接近于零)为 0.08。
![](http://mmbiz.qpic.cn/mmbiz_png/rDAib0gF5OjaEF8yzxBIlwLHUcAM4PxDDmJicia8XHUDVEdtJoxDdPEibiaRY7NnjWksM9WNVuQNassPHppiaMGmB6icQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)
首先,我们声明两个阈值和一个计数器。
EAR_thresh: 用于检查当前EAR值是否在范围内的阈值。
D_TIME:一个计数器变量,用于跟踪当前经过的时间量EAR < EAR_THRESH.
WAIT_TIME:确定经过的时间量是否EAR < EAR_THRESH超过了允许的限制。
当应用程序启动时,我们将当前时间(以秒为单位)记录在一个变量中t1并读取传入的帧。
接下来,我们预处理并frame通过Mediapipe 的 Face Mesh 解决方案管道。
如果有任何地标检测可用,我们将检索相关的 ( Pi )眼睛地标。否则,在此处重置t1 和重置以使算法一致)。D_TIME (D_TIME
如果检测可用,则使用检索到的眼睛标志计算双眼的平均EAR值。
如果是当前时间,则加上当前时间和to之间的差。然后将下一帧重置为。EAR < EAR_THRESHt2t1D_TIMEt1 t2
如果D_TIME >= WAIT_TIME,我们会发出警报或继续下一帧。
https://learnopencv.com/driver-drowsiness-detection-using-mediapipe-in-python/推荐阅读
AIHIA | AI人才创新发展联盟2023年盟友招募
AI同学会 | AI同学会开启试运营,快来Pick你的AI同学
AI融资 | 智能物联网公司阿加犀获得高通5000W融资