新闻动态
NEWS CENTER
NEWS CENTER
2019-05-18
进一步地,我们把用户的评论最终归结为产品、算法及运营维度。
其中,如效率提升、增加知识属于产品范畴,正是由于产品能够看到用户的需求,并从用户的角度出发,巧妙地利用人工智能技术,得以为用户解决需求。这是用户对形色的赞同,也是对它未来发展的期许,希望它一直记得初衷,服务用户,不断进步。
而准确率问题则属于算法范畴,而由于平台的训练数据,后续的经验积累、调参优化,都对最终平台的识别准确率有影响。形色官方技术团队曾对外发言称,其起步的训练数据集就很庞大,而且后续也很注重收集用户的反馈,进行模型准确率的调整,以后也还会继续加强数据集及算法的调整和优化,则算“盲区”会越来越少,从而整体的准确率会进一步提升。
最后,内容问题则属于运营范畴。之前看了一篇文章说到,互联网产品的发展,从技术主导到产品主导,已经开始萌生出运营主导的趋势,无论该论断正确与否,都不可忽略的是,运营是一款产品能否触达大众、焕发生命力的关键。而遗憾的是,形色的运营比较单调,这是相对不足的一个点。
形色的实现,其技术原理比较简单,主要就是图像识别及检索,即通过图片特征的提取,而后进行搜索匹配,最终输出结果。形色之所有获得比较好的准确率,主要在于它十分专注地打磨,把上述的每一个技术环节都做到了最好。
首先,训练数据集牛逼。有多少数据,就有多少智能,尤其是对现阶段的深度学习模型而言,训练数据的数量和质量可视作是决定性因素,这也是为什么很多人工智能产品经理都在工作中或多或少地需要承担数据标注、清溪任务的原因。在上线前期,形色团队就意识到数据对于模型准确率的重要性,因此他们在训练数据集的打造上花费了很多时间。
比如通过向各大论坛植物爱好者征集花草图片数据,同时自身团队出动,到当地进行常见花卉采集之后请专家鉴定等,在保证了训练数据集的数量之余才展开了后续的工作。
对于深度学习而言,由于深度网络的复杂性,需要训练的参数规模庞大,甚至可以达到好几百万个,所以要想算法落地成产品后能获得实际可用的结果,其训练数据集的需求量远远超出一般人的想象。
而当数据量不断增加后,数据的清洗和标注又是另外一个更为复杂问题,形色团队在这方面上也是斥巨资,他们聘请很多具有专业知识的专家反复校验,确保了训练数据集的质量。
通过数据集上的努力,形色最初的模型比较简单,获得的准确率接近50%,这让团队看到了希望。
人工智能是仿生的,和人一样,如果见得少,则判断出错的概率就大。所以为了减少算法识别错误的概率,需要让模型尽可能学习更多的数据,形色采取了一个长远更为有效的措施是:在产品上线之后,进一步收集用户上传的图片,用于算法的迭代训练。
结果显示,随着用户数量增加,平台训练数据集扩增,识别的准确率也越来越高。