使用UGC降低99.7%图片识别成本 学霸君AI高考首战告捷 | U刻
  • 使用UGC降低99.7%图片识别成本 学霸君AI高考首战告捷

    栏目:技术分享
     134分!这是学霸君研发的高考机器人Aidam挑战全国卷二文科数学卷取得的成绩,用时仅9分47秒。150元!这是学霸君使用UCloud研发的通用计算服务(UGC)后,每月用于OCR图片识别的计算资源成本。

    学霸君自成立伊始,就一直非常重视深度学习技术等人工智能(AI)领域的研究,高考机器人就是成果之一。除了高考机器人,学霸君还在研究手写识别技术,并应用于拍照搜题业务,在图片识别场景中,学霸君大量使用UCloud研发的UGC服务,不仅轻松解决多个业务痛点,而且将成本降低至原来的千分之三。

    学霸君的拓展蓝图

    学霸君是一款面向学生的解题APP,提供在线免费解答作业题、疑难点等服务。比如,学生在写作业时遇到不会做的题目,只需打开APP,将纸上的难题拍照并上传,就能立刻获取答案,同时还附带完整的解题思路和步骤,实现“难题一拍,答案秒出”。

    目前,宣布完成1亿美元C轮融资的学霸君已经练习了80万套试卷,7000万道题目,100亿道学生搜题数据,用户月活跃量2000万人次。

    不过,学霸君的“雄心”不止于此。今年高考期间,学霸君研发出的高考机器人Aidam与高考状元同台PK,目的在于用高考机器人技术辅助师生教学。同时基于Aidam的技术,学霸君将正式推出智慧教育平台Ai学,为学校的师生提供服务。

    考试机器人是机器理解技术的一种典型应用,也是AI领域的重要挑战。学霸君创始人兼CEO张凯磊认为,AI在教育领域拥有丰富的应用场景,使机器判卷、个性化指导、个性化作业变成可能,老师和学生的学习效率都可以大幅度提升。

    另外,学霸君还在研究手写识别技术,并应用于拍照搜题业务,进一步加强“读图识题”。

    图片识别场景痛点

    在学霸君的解题应用中,学生用户将题目拍照并上传到服务器,APP后台程序从图片文件中读取文字、公式,再将图片中的像素信息转化成计算机程序能够识别的数据类型。这一过程中,学霸君使用了OCR(光学字符识别)技术。

    作为一款面向学生群体的产品,学霸君拥有海量用户,因此后台每天都需要同时处理大量图片识别请求。此时,如果仅使用传统的OCR技术,将不可避免地遇到图片识别慢、识图率低等问题。这就要求学霸君团队将OCR结合深度学习的识图技术整合成服务端程序,以提高识别速度与效率。

    在技术优化之前,学霸君团队曾面临多个技术难题和困扰。首先,虽然识别图片和搜索答案是学霸君的核心业务,但为了应付客户端的海量请求和服务端程序性能优化问题,无法将全部精力投入到最有价值的方向上。其次,随着请求量日益增大,学霸君团队需要及时做好资源预估,购置服务器资源并扩容;架构上需要支持平行扩展,并且做好负载均衡与高可用容灾,这都增加了架构优化和运维压力。

    另外,学霸君研发团队在每台图片识别服务器启动了与CPU核心数相同的Worker进程数,为了保证并发量,每个识图请求只能由一个CPU核心处理。为了应对逐渐增加的识图请求,学霸君前后共扩容了数十台24核物理机用于部署图片识别服务。然而,在实际日常运行中,很多物理服务器在每天业务低谷时段处于低负载状态,导致整体资源利用率低下,计算资源大量浪费。

    UGC“对症下药”

    为了解决这些技术痛点,学霸君选择使用UCloud的通用计算服务(UGC)。通过评估UGC处理识图请求的可行性,学霸君认为UGC的产品特性能完美解决之前遇到的难题。

    作为UCloud研发的分布式大规模并行计算服务,UGC(UCloud General Compute)是一款Serverless产品,以用户算法代码为中心,无需关心计算资源的交付部署,且计算资源服务化,用户通过API使用计算资源。同时,UGC提供十万核级的海量计算资源,轻松支持高并发计算任务请求,自动实现资源分配和扩展,具备高可用和跨可用区自动容灾能力。更重要的是,UGC实现按需付费(Pay As You Go),用户只需要为实际消耗的计算资源付费。

    学霸君研发团队将图片识别算法代码打包提交到UGC算法仓库中,通过调用UGC的API过程嵌入到自身中控程序代码中。下一步,UGC平台会立刻调用运行图片识别算法,将识别后的数据实时返回到学霸君中控程序。如此一来,学霸君的算法工程师们不用再为如何实现优化高性能服务器程序而费心,可以集中精力优化OCR深度学习算法。

    在学霸君APP业务流量高峰期,UGC能为增长的识图请求自动扩展分配更多计算资源,轻松应对高并发请求。这就彻底解决了学霸君的资源预估、服务器扩容、架构伸缩平行扩展以及容灾设计等架构难题。

    根据UGC的“Pay As You Go”计费原则,学霸君只需要为执行过图片识别算法任务所消耗的CPU核时付费。在使用UGC之前,学霸君每月需要花费57000元物理机资源用于OCR图片识别;UGC产品上线后,这一费用下降至每月150元,成本大幅降低99.7%,UGC为学霸君每年节省了近70万元的物理机维护开销。

    学霸君图片识别场景 使用UGC之前

    学霸君图片识别场景 使用UGC之后

    “用户的需求就是我们下一个产品”,UCloud始终致力于为用户提供更好的产品与服务。通过使用UGC轻松解决用户的图片识别技术困扰,助力学霸君圆梦。

    9