Giter Site home page Giter Site logo

insightapp's Introduction

logo

📷Insight ————“识相”APP项目

1.原型预览:点击跳转

2. 20*20页PPT(带口白) :点击下载


URL数量请见文中蓝字内容

表格数量(不算图片外)自认为10,还望细数。

迭代2改进增量内容

  • 🚄增加 DVF模型描述 相关描述
  • 🚌增加 ESG考量 相关描述
  • 🚢增加 利益相关者 相关描述
  • 🚗增加 数据流程相关 相关描述
  • 🔗增加 跳转外链数 数量
  • 🐶重新提交ppt

项目名称

识相APP产品

产品概览

文档名称 识相-产品需求文档
产品名称 识相
产品描述 一款利用图像识别、效果增强来帮助用户进行相册图像辅助整理、备份,解决在当下用户照片没有及时处理和避免照片占用过多存储空间的痛点的APP。
产品版本 2.0
文件现状 进行中
文件作者 丘天惠

MVP价值主张宣言

笔者认为目前市场上现有的相册管理软件功能参差不齐,无法对相册中的照片进行高效的管理。此软件针对这个用户痛点和现今存在的此类API进行整合并优化。 在此软件中,用到的API类型有:物体和场景识别API,OCR文字识别API,图像效果增强API等;结合API进行功能的集合实现,以解决当下下用户照片没有及时处理和避免照片占用过多存储空间的痛点。

总结:

  • 价值主张宣言:利用“百度AI开放平台”提供的API能力接口,以解决用户在整理照片时遇到的痛点。

  • 问题:用户需要对相册进行整理。

  • 解决方案:通过调用API对图像进行识别、优化等操作,让用户更便捷地处理图像。

DVF模型描述

D:Desirability 用户需求

V: Viability 可持续性

F:Feasibility 可行性

模型 内容
需求Desirability 用户存储了大量的照片,需要处理相册中的照片。
可持续性Viability 用户的照片持续更替,对软件的依赖性强,用户粘性较高。
可行性Feasibility 市面上的相关产品数量少,且随着手机摄影的发展,用户在此方面的需求会越来越大。

ESG考量

  • 环境:减少手机存储空间,减少带宽的使用,更少的能耗。(关于互联网使用的能耗)
  • 社会:通过智能API功能的服务,改变用户在处理图像时的使用习惯。
  • 治理:通过普及利用API平台提供的服务,让用户更高效率地利用智能产品。

利益相关者

  • 用户:需要对图像进行相关的操作处理。
  • 产品开发者:利用API平台服务进行开发;明确产品定位,完善产品功能。
  • API提供者:提供优质的API服务,降低出错率,对图像进行精确的识别和处理。

数据流程相关

要素 内容
用户可欲性 提供多样的功能,可供用户选择,增加用户可欲性。
技术可行性 百度AI平台提供多样成熟的API,技术实现难度不大。
商业可行性 开发自身并不需要使用过多资源,基本上是调用API接口功能,价格低廉适用商业。

一、需求概述

1.产品背景

智能手机快速发展的同时,人们对手机相机的依赖越来越高,甚至在使用频率方面出现取代单反相机的现象。伴随这一现象出现的后果是用户手机中的照片越来越多,不论是随手拍、工作需求、文档传真、截屏等照片在当下使用后便存于手机中疏以整理,导致积累的照片数量越来越多,更难以整理,最终让手机存储空间变得臃肿不堪。

2.产品市场

在笔者对市面上现有的几款相册整理软件测试使用/进行时发现,能够实现单项功能(如OCR图像识别、照片分类)的软件不在少数,但是却没有能够完整地整合在一起,如若用户需要处理图像,可能需要下载两个及以上的软件进行处理。再者,时下人工智能的快速发展让图像的识别、处理变得简单。进而,通过结合各个功能让用户能够快速地整理图像的软件是用户所需的。

3.市场概述

从 2012 年的 ImageNet 竞赛开始,深度学习在图像识别领域发挥出较大威力,在通用图像分类、图像检测、光学字符识别(Optical CharacterRecognition, OCR)、人脸识别等领域,最好的系统都是基于深度学习的。生物识别技术市场规模不断增大。 生物识别不仅是目前正进行的如火如荼的行业,同时也是在未来五年具有发展潜力的市场。预计 2020 年生物识别技术全球市场规模将达到 250 亿美元。 国内生物识别技术市场规模有望从 2015 年 100 亿元上升至 2020 年的 300 亿元。 2013 年的统计数据显示,人脸识别占比 23%。同时国际生物识别小组于 2009 年的研究结果表明指纹识别占据生物识别的 50%市场,人脸识别紧随其后占据 13%的份额。预计到 2020 年,人脸识别市场空间预计超过 40 亿元人民币。

总结

根据目前的形势,图像识别/处理方面的技术已经基本上成熟,但是却不能够做到物尽其用。在相册整理一块,现有软件有如:一刻相册、谷歌相册等,皆未能充分利用现有技术进行集合,且数量也是相对较少的,有很大的发展进阶空间。

3.2市场特征

  • 对于现今软件市场几近饱满的情况下,人们不愿意下载过多的软件。因此,能够集成多样功能的软件,用户的需求迫切。
  • 计算机深度学习迅速发展,图像识别/处理技术得到进一步提升,更够对软件识别能力进行进一步的提升加成。
  • 相册整理类软件相对较少,暂未出现能够占据市场大量份额的产品。

3.3发展优势

  • 同类型产品少,竞争对手数量少,竞争力度小。
  • 开发成本较低(主要功能通过调用API即可实现)。
  • 减缓用户储存空间不足的使用情况。
  • 功能实用,痛点明显,可以实在的解决问题。

二、核心价值(最小可行性产品)

在“识相APP”中为需要整理手机相册的用户提供更优的处理解决方案。

用户痛点

  • 日常产出的照片占用了手机中大量的存储空间
  • 相册中凌乱的照片集合在其中,难以进行整理
  • 文档类型的照片需要放大才能看清
  • 挑选图片、修图需要花费大量时间

三、用户分析

1.目标用户群

  • 核心用户:18-30岁的经常使用手机存储相片或相关资料的青年群体。
  • 主要用户:18-25岁的经常使用手机进行拍摄的青年群体。

2.用户画像及使用场景

  • 用户1:

    使用场景:小良是一名新闻专业的大学生,同时也是一名摄影爱好者,使用着一台新款的aPhone 11 Pro Max,在这台手机三颗强大的摄像头的加持下,他能够利用这台手机拍出很多好照片。他每天都拍了很多照片,但是因为学业的原因,经常不能够及时处理拍的照片,导致相册中的照片越来越多,手机存储空间也变得不够用了。于是他使用“识相”APP,照片自动分类以供他挑选和整理,软件中的机器学习美化照片也帮助他有更多的想法来处理照片。

  • 用户2:

    使用场景:阿蓝是一位在鹅厂上班的典型职(she)业(chu)女性,平常工作需要经常处理工作的材料,细心的阿蓝保存了很多材料的照片留底,以免出错;在非工作日,阿蓝也喜欢在周边游玩,喜欢拍很多照片发朋友圈, 但是拍照技术不到家,只能以数量来弥补,因此相册中保存了很多照片,直到手机存储空间不足的一天,她被推荐了“识相”APP,照片自动分类以供她挑选和整理,软件中的图像效果增强(美化)功能也让她爱不释手。


四、核心价值与用户痛点

用户痛点 API加值
照片杂乱无章,难以整理 百度AI开放平台图像主体检测功能
电子材料照片需大量的人工进行处理 百度AI开放平台通用文字识别
照片效果不理想 百度AI开放平台图像效果增强

五、人工智能API加持与解决用户痛点

功能优势 解决痛点
准确性高:基于百度海量数据,利用深度学习技术及高精度算法不断迭代模型,准确率业界领先 保证识别的准确性以更好地分类
标签体系丰富 : 可识别出10万+物体及场景标签,并在不断丰富中,持续提供更精细的识别服务 完善分类体系,精准识别照片内容
主体定位、打标签 : 检测出图片中多个主体的坐标位置,并给出主体的大类标签和标签的置信度得分,对海量图片进行分类、打标签 辅助物体识别,让结果更加精准。
功能优势 解决痛点
支持多语种识别: 通用文字识别、含位置信息版支持对中、英、法、俄、西、葡、德、意、日、韩、中英混合等多语种内容的识别,并支持中、英、日、韩四语种的类型检测 能够识别多种类型的字体内容,能解决大多数的识别问题
准确率高:针对图片模糊、倾斜、翻转等情况进行了优化,鲁棒性强,识别速度快,且支持2W+大字库,总体识别准确率高达99% 精准识别,错误率低,快速返回正确率高的结果。
功能优势 解决痛点
创意功能多样 照片处理方式有更多的处理方式
修复照片 处理瑕疵照片,还原色彩

六、需求列表

需求 用户场景 优先级 智能加值? API类型
分类出相册中的照片 软件分类相册中的照片类型 较重要 通用物体和场景识别 & 图像主体检测
识别照片中的内容 想要获取到图像中的信息内容 重要 通用文字识别(OCR)
对照片进行效果增强处理 想将图像变得更好看 重要 图像效果增强
相册备份 用户想将手机存储中的照片进行备份处理 次重要
面对面传照片 用户需要将照片快速传给身边的人 次重要

七、产品结构图

1.产品功能一览

识相产品功能结构图

2. 用户流程图

识相APP用户流程图

3.界面流程


八、数据推理

1 页面的主要功能有哪些? 相册概览和分类;文档识别;照片美化。
2 照片如何实现分类? 通过调用通用物体和场景识别 & 图像主体检测API返回图像的类别,给图片打上标签,进而分类。
3 用户图像数据会不会泄露? 我们使用百度AI智能平台,软件本身不存储用户照片的数据,只做调用API和展示给用户看。
4 如何调用API返回数据? 通过获取用户的照片以上传到百度AI平台提供的接口返回对应的数据。

九、产品原型

交互原型体验点击跳转

  1. 登录页

login

  1. 核心功能页面
  • 主页面(照片分类)

主页_照片页

用户进入软件后的第一个界面是用户相册预览以及相册分类的目录,用户可以点击不同的类别从而查看不同的相册内容。

分类示例:

人物分类页面

以人物分类为例,当用户点击进入人物分类时,界面显示人物的脸以及姓名,用户可以自行给照片添加备注信息。

  • 照片美化界面

beauty

进入美化区域时,用户从软件提供的11种照片美化方式中进行选择,不同的美化方式有不同的结果。

美化功能示例:

beauty_tyr

以增强图像对比度为例,软件提供美化前后的示例图像,用户选择拍照或上传相册内容,进行上传图像调用API进行美化后返回结果。

  • 扫描界面:

scan

用户选择拍照/相册选择中的照片后上传调用API,进行OCR识别后返回文字结果以用户。并提供分享/复制文字内容的选项。


十、API运用

此软件中所采用的API服务均来自 百度AI开放平台,在调用各API接口之前需要获取到百度ai平台的access_token,且access_token的有效期为30天,需要每30天进行定期更换。

获取access_token方法:

access_token

1.通用物体和场景识别

通用物体和场景识别

  • 请求结果示例:

通用物体和场景识别结果

  • 分类示例:

识别返回类别示例

可见返回结果中,参数“root”中为API接口识别到的图形所属的类别,根据置信度“score”纳入不同类别中,从而进行分类。

2.图像主体检测

  • 接口描述:用户向服务请求检测图像中的主体位置。

  • 请求方法:POST

  • 请求示例:

主体检测

  • 请求结果示例:

检测结果

  • 主体识别示例:

主体识别示例

3.图像效果增强

  • 此API中含有多个功能,不同的请求接口是不同的结果。用户只需选择一个想要的功能接口进行调用即可。
  • 接口描述
接口名称 接口能力简要描述
图像去雾 对浓雾天气下拍摄,导致细节无法辨认的图像进行去雾处理,还原更清晰真实的图像
图像对比度增强 调整过暗或者过亮图像的对比度,使图像更加鲜明
图像无损放大 输入一张图片,可以在尽量保持图像质量的条件下,将图像在长宽方向各放大两倍
黑白图像上色 智能识别黑白图像内容并填充色彩,使黑白图像变得鲜活
拉伸图像恢复 自动识别过度拉伸的图像,将图像内容恢复成正常比例
图像风格转换(邀测) 将图像转化成卡通画或素描风格,可用于开展趣味活动或集成到美图应用
图像修复(邀测) 去除图片中不需要的遮挡物,并用背景内容填充,提高图像质量
图像清晰度增强 对压缩后的模糊图像实现智能快速去噪,优化图像纹理细节,输出画面更加自然清晰的图片
人像动漫化 结合人脸检测、头发分割、人像分割等技术,为用户量身定制千人千面的二次元动漫形象
天空分割(邀测) 可智能分割出天空边界位置,输出天空和其余背景的灰度图和二值图,可用于图像二次处理,进行天空替换、抠图等图片编辑场景
  • 请求方法:POST

  • 请求示例:此接口调用方法皆为通过POST请求上传用户需要进行图像效果修改的图片,选择对应的功能从而调用对应的接口,以返回对应的效果增强后的图像。请求的代码皆类似,唯独不同之处为请求的URL不相同,故示例中只做一次展示(以图像去雾为例),其余为类似操作。

图像去雾

  • 请求结果示例:

图像去雾返回结果

  • 图像去雾示例:

图像去雾示例

4.通用文字识别

  • 接口描述:基于业界领先的深度学习技术,提供多场景、多语种、高精度的整图文字检测和识别服务,多项ICDAR指标居世界第一。

  • 请求方法:POST

  • 请求示例:

文字识别请求

  • 返回结果示例

文字识别返回

  • 通用文字识别示例

识别示例

各API产品定价

总结

结合百度AI开放平台提供的以上API,利用图像主体检测结合通用物体和场景识别对相册内容进行识别并分类;文档扫描中,采用通用文字识别API(OCR)进行识别内容并返回数据;图像效果增强功能中,提供出多种接口对应不同的功能让用户进行选择后请求并返回对应的数据结果。


十一、API使用风险评估

用户在使用过程中可能遇到的问题:

  • 图像分类不准确,造成用户在分类中看到不属于该类的图像。可以在每张图片点击查看详细时增加修改图像类别的功能,反馈后将图像归属到该类并反馈到API的训练数据集中。
  • 当图像出现多主体时,系统可能将图像分类至不同类别,可能导致多个类别中存在相同的图像,可以在点击详细图像时提示用户,该图像亦属于某某其他类别。
  • OCR文字识别出现少量文字出现错误时,允许用户修改文本,并上传至API端以进行数据反馈。

十二、竞品分析

市面上对照片管理的软件鱼目混杂,但是却罕有能够集中对照片进行整理功能的软件。因此在此举例市面上相关相册整理软件(竞品)“百度网盘”和“谷歌相册”进行对比。

竞品概要

竞品名 简介 定位 功能体验 优势 劣势
百度网盘 百度网盘个人版是百度面向个人用户的网盘存储服务,满足用户工作生活各类需求,已上线的产品包括网盘、个人主页、群组功能、通讯录、相册、人脸识别、文章、记事本、短信、手机找回。 偏向手机、电脑等多种设备的资料备份,相册整理只是其中的一个功能,并非主打。 1.主打相册备份。 2. 亮点功能在分类中,以人物、地点、事物三类为主。 3.对本地相册的整理功能被忽略,注重云端存储。 1. 以百度AI为背后加持,数据集足够大,分类准确度高。 2.百度大品牌,用户数量基数足够多。 3. 用户价值方面已经有固定的收入方式来源。 1.没有功能的集合 2. 更偏向对云端相册的管理。 3.用户评价一般,百度的负面新闻相对于其他科技公司较多。
谷歌相册 免费且无限空间容量的图片照片视频云存储服务 普通用户的照片云存储空间,带有人脸识别以及自动分类。 1.由于相关政策的限制,国内用户暂时无法使用 2.免费且无限存储空间 3. 作为谷歌看家本领的“搜索”在相册中也同样适用,能够直接在相册中用关键词来搜索相关的照片。 1.有大量的数据集,精准的图像内容识别 2.收费规则对普通用户友好,除有特殊要求的用户外免费。 3.关键词搜索。 1.国内用户无法使用 2.偏向云端相册处理,对本地相册管理功能较差 3.功能不够多。

竞品对比

“百度网盘”与“谷歌相册”背后都有强大的数据支撑,对图像的识别能力不在话下。两者最大的区别就是对待用户价值的处理方式百度网盘采用“限量”“限速”的方式留住大量客户,如果要更好的用户体验只能够进行升级;反观谷歌相册对普通用户一律采取免费对待的方式,且没有存储空间及速度的限制。其二,百度网盘偏向对资料进行云存储,在相册管理方面更像只是一个附加的功能;谷歌相册在国内不能使用,让其缺失了一个很大的用户群体。因此,正是需要一个集以上各功能为一体,并且能够集中管理并处理相册的软件的时候。


十三、产品未来迭代设想

发展理念:首先基本实现软件的特色功能,满足用户的基本需求为第一位,后续再新增更多功能。

产品迭代

  • v1.0

    • 能够对本地相册识别,进行分类整理。
    • 提供图像美化功能。
    • 扫描文档功能基本实现。
  • v2.0

    • 云端备份相册功能。
    • 扫描文档能够修改内容。
    • 美化功能增加更多功能。
  • v3.0

    • 用户能够在本地分类中,修改某张图像的分类属性,并反馈到云端优化。
    • 上线面对面快传功能。
    • 能选取用户相册人物类别中某一位人脸的所有图像进行分享。
  • v4.0

    • 提供小程序端、网页端、PC客户端软件。
    • 进行用户推广。

盈利模式

  • 软件成熟后(有一定的用户量),每种分类中默认只能查看200张图像,更多需要会员。
  • 服务器是主要成本;云端存储空间每月免费50g,如需更多空间需要会员。
  • 与照片服务相关的产业进行合作,如照片冲洗打印、证件照处理等。

关于

一句话版本

近年来,手机摄影的迅速发展,让用户的手机中存储了大量的图像却又疏于整理,导致用户手机存储空间拥挤的现象。为了解决用户的痛点,“识相”提供图像智能分类、图像美化、文档扫描等功能,集市面上的照片管理的功能为一体,让用户能够在“识相”中完成对图像的整理、处理工作。


心得感谢

1. 心得

通过一学期以来的学习,在API及人工智能有几点心得。

  • 首先是对调用API的实践方面有了基本的了解,基本掌握其使用。
  • 其次是认识到要从用户需求及智能价值出发去考虑API及人工智能的使用,不要为了智能而智能。
  • 现如今的很多地方都可以运用到API,怎么去运用它来解决问题,才是最重要的。
  • 如今各厂商平台都开放自己的优势服务以及功能以供大家结合使用,如何结合各厂商的优势功能进行创新开发,发现用户痛点以及问题,利用现今存在的工具进行解决,这就是我们的职责所在。识相APP正是这样的一个存在,真正能够解决用户问题的产品才是有意义的产品。

2. 感谢

insightapp's People

Contributors

autumnhui avatar

Watchers

 avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.