古有伯乐相马,今有AI面试,不会看脸的AI不是好伯乐?

互联网
古有伯乐相马,今有AI面试,不会看脸的AI不是好伯乐?
麻省理工科技评论 2019-11-07

2019-11-07

越来越多的公司正在考虑或已经开始使用AI技术筛选面试者
算法 技术
越来越多的公司正在考虑或已经开始使用AI技术筛选面试者

越来越多的公司正在考虑或已经开始使用 AI 技术筛选面试者,高盛、希尔顿和联合利华等知名企业都在普及一套名为 HireVue 的 AI 视频面试系统,已经有成千上万的面试者经过这套系统的筛选。
借助 AI 的力量,电话和视频的面试数据都可以拿来分析面试者的特征,总结出他们是否具备职位所需的能力和特点。最理想的情况下,AI 可以扮演伯乐的角色,帮助 HR 快速选出心目中的千里马。
希尔顿高管曾表示,HireVue 的 AI 面试系统将平均招聘时间从 6 周缩短到了 5 天。
这种趋势催生了很多初创企业,除了专注于视频面试的 HireVue,还有开发辅助招聘系统的 AllyO,专注分析电话面试的 VCV 等等。不久前,美国知名私募机构凯雷集团(Carlyle Group)成为了 HireVue 的最大持股人,显示出对该领域前景的看好。
但与其他 AI 技术应用一样,AI 面试系统也引发了一系列争议:AI 系统有没有偏见,依据什么标准给面试者排名,表情分析结果是否可信等等。
换言之,AI 真的能当伯乐吗?

古有伯乐相马,今有AI面试,不会看脸的AI不是好伯乐?

图丨 伯乐相马(来源:东方 IC)

筛选机制

虽然有很多不同的初创公司,开发了很多不同的 AI 面试系统,但它们本质上都遵循了一套相似的评判模式:用特殊算法追踪和分析面试者的面部表情、语音语调和用词方式,然后在职位所需的特质上打分,最后向 HR 和部门主管提供一份综合所有面试者各项指标的排名表。
排名靠前的面试者代表他们的表现受到了 AI 的青睐,被评为更贴近职位需求的人选,因此也更容易获得下一轮面试机会,而排名靠后的面试者也有机会被看到,并不是直接出局。
看起来 AI 并没有淘汰任何面试者,只是给出了建议,最终决定权还是握在人的手里,但根据客户反馈,在实际应用中,HR 会直接淘汰排名靠后的人选,只有极少数情况下才会关注排名靠后面试者,比如某人在关键需求上非常突出。
也只有这样,使用 AI 系统的公司才能真正节约时间和成本。按照 HireVue 的说法,他们已经为联合利华节省了 10 万小时的面试时间,大约每年节省 100 万美元的招聘开支。

古有伯乐相马,今有AI面试,不会看脸的AI不是好伯乐?

图 | HireVue 宣传视频,以“减少无意识偏见和促进多元化”为宣传点(来源:HireVue)

“我们认为 AI 面试系统还能促进企业多元化发展,避免部门主管习惯于招聘那些言谈举止跟自己很像的‘年轻的自己’,更多关注面试者的能力,”联合利华首席人力资源官 Leena Nair 表示。
通过面试收集的海量数据还有助于企业实施更深入的分析,比如应聘者的技能和背景跟他们在公司工作的表现和时长是否存在联系。如果有,这种联系能不能量化成一项评判标准,在未来纳入 AI 系统中,进一步完善人才筛选机制。
不过,这一系列措施都需要建立在一个大前提之下:人们可以信任 AI 系统做出的评判。

评判标准

以 HireVue 的 AI 面试系统为例,它的评判标准来自于公司现有员工,依岗位不同而变化。如果要招聘新的电话客服,那么公司需要首先编出一套面试问题,然后要求现有客服通过 AI 系统做一遍题,就像真的面试一样。
这时 AI 已经获得了每个员工的面试表现数据,随后公司需要将每个员工的面试数据和工作表现配对,比如他们的好评度或者解决客户问题的速度。
这一过程相当于告诉 AI,“表现好的员工在面试中会展现出某些特质,你负责把这些特质归纳出来,作为评判面试者能否成为好员工的标准。”
面对真正的求职者,训练后的 AI 会在多个维度和项目上打分,例如“能力和行为”大类别中又包含“学习意愿”、“自觉性和责任感”和“个人稳定性”等多个小项目。有的项目也适用于情景分析,会评判面试者面对难缠的客户或同事时的表现。
分析结束后,AI 会将所有个人特质综合到一份评估报告中,再利用所有面试者的报告建立排名表,根据“成功的可能性(likelihood of success)”将他们分成高、中、低三个等级。

古有伯乐相马,今有AI面试,不会看脸的AI不是好伯乐?

图 | 外媒测试 AI 面试系统(来源:Business Insider)

至于 AI 在多大程度上能够筛选出潜在最佳员工?哪一类人最容易被 AI 青睐?哪些关键词和行为会被 AI 相中?鉴于AI算法的工作过程有时处于黑箱之中,HireVue 自己都做不到 100% 确定,大多数情况下会用一些宽泛的词语来解释。
以应聘客服为例,HireVue 认为面试者使用带有“鼓励和支持”意味的词汇,可能会比使用“攻击性”较强的词汇获得更高的分数。
“面部表情分析得分最多占总分数的 1/3,剩下的是语调和用词等因素。”HireVue 的心理学家 Nathan Mondragon 表示,“实际上人类本身就是多变的,会在评估过程中掺杂主观思维,但 AI 可以用一套标准记录面试的数据,对所有人一视同仁。”
然而,包括很多 AI 研究学者在内的质疑者认为这种说法存在漏洞:如果 AI 系统的标准本身存在偏见呢?

古有伯乐相马,今有AI面试,不会看脸的AI不是好伯乐?

图 | 视频面试的另一端是 AI 面试官(来源:HireVue)

难以捉摸的 AI 系统

这种情况时有发生,是 AI 数据分析领域的通病,亚马逊的面部识别系统和美国各大医院的健康风险评估系统都出现过针对某一肤色的歧视现象。
举个例子,如果一个部门所有员工恰好都是白人,那么好员工也不可避免的都是白人,AI 面试系统会不会在归纳特质的时候无意中选择了一个偏向白人的因素,而降低对其他肤色面试者的喜好。再夸张点说,如果好员工刚好都是女性,那么男性面试者会不会因为缺乏女性身上更常见的特质(比如说话柔和)而被降低权重。
除此之外,一些神经科学家也在质疑面部表情分析的可靠性。抛开微表情学说是否属于伪科学不谈,只要考虑到文化背景和成长经历的复杂差异性,即使是人类,也会在判断表情、情绪和性格的内在联系时出错,更何况 AI。
最简单的例子就是很多人在生气(情绪)时会不自觉皱眉(表情),可是仅凭皱眉无法判断这个人是否真的生气,也有可能是在仔细思考或者表达疑惑,甚至就是单纯的习惯,但 AI 可能会将皱眉和负面性格(易怒)联系起来,导致一些人被莫名降低排名。
针对这些质疑,HireVue 表示系统会综合考虑 2500 多个特征点,而且拥有一批专家顾问,会定期审查 AI 算法,矫正错误,改善不足,但因为没有相关规定,它的 AI 面试系统没有接受过任何独立的第三方审查。
“面试的时候,求职者会因为各种与他们能力不相关的理由被拒绝,面试官会评判他们的着装、袜子、鞋,甚至是衬衫掖没掖到裤子里。不考虑这些情况,就直接假设一些人会被 AI 系统不公平地对待是不合逻辑的,”HireVue 首席科技管 Loren Larsen 表示,“当 1000 个人申请一份工作时,总会有 999 个人被拒绝,无论AI是否参与。”

古有伯乐相马,今有AI面试,不会看脸的AI不是好伯乐?

图 | YouTube 上有很多 HireVue 面试的指导视频

根据一些经历过 HireVue 面试的人总结,他们会提前知道自己将迎来 AI 面试系统,但不知道 AI 如何给自己的表现打分。
这催生了很多人在网络上分享自己的经验,成功和失败的都有,试图用集体的力量找到总体上行得通的面试技巧。常见的技巧包括经常微笑,表情自然,放慢语速和注意用词,还要尽量保证背后是白墙,以免混乱的背景干扰 AI 算法,甚至可以在摄像头旁边贴上眼睛贴纸,帮助维持眼神接触。
至于方法是否真的有效,你还记得自己面试时的状态吗?能记住自己三分钟之前说过什么就已经很不错了。
“面试本来就令人紧张不安,这种新型沟通方式无疑是火上浇油。我们迎来了焦虑的一代,要求他们面向屏幕说话,对着摄像头回答问题,还不告诉他们怎样做才能更好,”辅导学生如何参加 HireVue 面试的杜克大学经济学教授 Emma Rasiel 如此表示。
不管怎样,大型雇主使用 HireVue 等 AI 面试系统作为初级人才筛选机制正在成为趋势。对于高盛这样的大公司来说,应聘者永远络绎不绝,相比 AI 是不是真伯乐,有没有错过千里马,省下真金白银或许更重要。就好似从最开始使用 AI 时,找到千里马就不曾是头等大事。
被遗忘的千里马呢,只好感叹:“世有伯乐,然后有千里马。千里马常有,而伯乐不常有。古人诚不欺我。”

麻省理工科技评论

From Tech to Deeptech