支持长文本、长图形、长语音：科大讯飞Spark模型V3.5更新版本体验

发布时间：2024-10-05浏览：91

大家好，关于支持长文本、长图形、长语音：科大讯飞Spark模型V3.5更新版本体验很多朋友都还不太明白，不过没关系，因为今天小编就来为大家分享关于的知识点，相信应该可以解决大家的一些困惑和问题，如果碰巧可以解决您的问题，还望关注下本站哦，希望对各位有所帮助！

今年年初，IT之家对科大讯飞Spark V3.5版本进行了深入体验，并与GPT-4进行了全面的对比。从IT之家的评测来看，讯飞Spark V3.5的综合能力已经可以与GPT-4媲美，甚至在逻辑推理、数学能力和知识库更新速度方面都表现出一定的领先优势。

红色框为科大讯飞Spark V3.5新能力的入口。最右侧的文件包含您上传的所有文档，将以“云空间”的形式保存，方便下次使用。

一、长文本体验

长文本处理能力已经成为衡量各大型号产品硬实力的关键指标之一。

在日常生活中，我们不可避免地会遇到长文本内容，比如读起来枯燥的隐私政策、那些冗长晦涩的免责声明、那些复杂迂回的保险合同。

面对这些往往包含数十万字的文献，完整地阅读它们就像阅读一本哲学书《形而上学》一样困难。

对于笔者本人来说，如果有一天我忘记把手机带进浴室，身边就有一本xx保险示范条款的书。另一边是一瓶沐浴露。我宁愿背沐浴露的成分表，也不愿主动去读xx的保险条款。

然而，这些东西的存在是必要的。毕竟，它们是写给我们看的。您可以选择不阅读，但如果您遇到问题，这些隐私政策和合同条款可能会成为关键。

那么问题来了，我们如何在数万甚至数十万字中快速定位关键信息呢？尤其是在保险条款和合同方面，我们如何找到对自己最有利的条款呢？或者说，我们如何立即发现对我们不利的规则？

总而言之，需要阅读长文本是生活中常见的痛点，而大模型的目的就是帮助我们在复杂的文本中找到我们最想要、最需要的信息。

那么科大讯飞Spark大机型V3.5的表现如何呢？

科大讯飞Spark Model V3.5界面，为了方便大家阅读，网页放大了50%

1、合同条款类

首先，科大讯飞Spark Model V3.5全新推出了新推出的“Spark合同助手”小组件，可以全面协助用户快速起草各类合同。

iFlytek Spark V3.5不仅可以对一系列专业问题提供通俗解答，确保法律准确性和合规性，而且通过其准确的判断和解答，帮助用户更有效地理解和处理复杂的信息。

以下图《网站隐私政策》为例。这种隐私政策在我们的生活中随处可见，比如在打开每个应用程序之前都要滑动以同意那些冗长的条款。

网站隐私政策

红色箭头部分为长文档上传入口

然后问了以下两个问题：

概述本隐私政策中我需要特别注意的问题

本隐私政策获取了关于我的哪些信息？

科大讯飞Spark Model V3.5在接到问题后很快给出了简单易懂的解答。

接下来，作者上传了《费改机动车商业保险示范条款及免责事项说明书》（下图），字数在20000+左右，咨询了免责声明、保险赔偿等各种问题。

机动车商业保险从收费到收费的示范条款及免责条款

例如，当笔者询问“发动机进水是否需要赔偿？”时，科大讯飞Spark大机型V3.5很快给出了答案：

返回到《免责事项说明书》，我们确实找到了这条语句，如下图红框所示。

不过笔者还是不太明白这个“特殊协议”的含义，于是继续询问飞星火大模型V3.5，并给出了答案（下图）：

随后，我也以同样的问题咨询了保险公司的人工客服，得到的答复如下：

科大讯飞Spark Model V3.5和人工客服给出的答案是一样的。

关于这个“特殊条款”，我在这里插一句。

笔者在网上查了一些资料。简单来说，保险新规出台后，正常的发动机涉水属于车损险的承保范围。然而，有些人在沙漠或少雨的地区使用汽车。那么购买带有这个“特殊条款”的保险可以进一步降低保费，但如果发动机进水损坏，保险公司是不会赔付的。

从科大讯飞Spark Model V3.5的回答来看，这个“术语”的含义确实表达得很清楚，与客服的回答基本一致。

不过，有一个前提是“发动机进水属于车损险的承保范围”，而这个前提并没有出现在这份长达两万字的“免责声明”中。 iFlytek Spark Model V3.5是通过作者提供的长文检索到的，自然不知道这一点。

接下来，笔者问“你推荐购买吗？”

科大讯飞Spark大型号V3.5给出了明确的答案——不推荐。

客服也不推荐。

笔者还询问了保险中的各种问题，科大讯飞Spark大模型V3.5给出了准确的答案：

从各种答案来看，科大讯飞Spark V3.5已经达到了令人满意的水平，并且具有一定的逻辑推理能力，可以给用户提供正确的建议。

2、研究报告类

本月26日上午，OPPO发布了《OPPO 创新与知识产权白皮书》，一份共23页的pdf文件。

针对这份白皮书的内容，作者也提出了一系列问题。

一份关于理想汽车的研究报告有大量的图表、图片描述和数据。科大讯飞Spark V3.5甚至可以回答报表中非常细分的问题（比如销量）。

针对用户科研需求，科大讯飞Spark V3.5还新增了长文本摘要功能、行业报告长文本生成功能。

在Spark助手中心，找到Spark科研助手，提供一系列专业解答。

作者上传了研究报告《全球产业数字化转型趋势及方向研判》和《华为终端可持续发展报告 (2022-2023 年)》，并针对其中所包含的专业问题发起了一系列提问。

iFlytek Spark V3.5可以为这些专业领域的复杂问题提供系统的解答。

长文总结：

长文本生成：

3、读书娱乐类

最后，作者将余华的《在细雨中呼喊》小说的TXT文件上传到科大讯飞Spark V3.5，并对小说中呈现的众多人物和故事情节提出了一系列疑问。

《在细雨中呼喊》也是我最喜欢的小说之一。我读了四五遍，里面的每一个故事和情节都给我留下了深刻的印象。

不过，这毕竟也是一本十四万九千字的小说。小说包含许多细节和相互交织的情节。想要给出全面、准确的答案，对我来说可能并不容易。

那么科大讯飞Spark V3.5的表现如何呢？

首先，作者问，小说主人公的父亲（孙光才）是一个什么样的人？ iFlytek Spark V3.5的答案如下：

在笔者看来，孙光才的后半生就是一个彻头彻尾的无赖，自私、虚伪、卑鄙、可怜。科大讯飞Spark V3.5给出的答案与笔者的观点相当接近，但判断的“力度”还不够。但不可否认的是，矛盾贯穿了孙光才的一生，科大讯飞Spark V3.5也给出了这样的观点。

对于这个问题，科大讯飞Spark V3.5也给出了准确的答案：——他被埋在最肮脏的地方，但他死的时候并不知道这一点。

关于爷爷的人生经历，科大讯飞Spark V3.5也可以做一个简洁的总结：

但对于一些比较复杂的问题，科大讯飞Spark V3.5虽然事实陈述清晰、透彻，但在深入评测方面却显得有些肤浅。

例如，当被问及孙光明的救人行为时，科大讯飞Spark V3.5的回应是“对他无私的英雄主义表示赞赏，但也流露出对他鲁莽行为的批判态度”。

孙光明为救孩子溺水身亡。用自我牺牲来拯救别人的事放在我兄弟身上，显然是夸张的。弟弟还没有高贵到愿意用自己的死换别人的命的程度。

他此刻的行为，来自于他对那些七八岁孩子的权威。

当死亡降临到孙光明手下的孩子们身上时，他以为自己可以轻而易举地拯救他们。

被救的孩子根本记不起原来的情景。他只会目瞪口呆地看着问他的人。几年后，当有人再次提起这件事时，孩子一脸疑惑，仿佛是别人编造的。

如果不是村里有人亲眼所见，孙光明可能会被认为是淹死的。

二、长图文体验

相比于简单的无文本图片或长文本以外的复杂情况，科大讯飞Spark V3.5的大图文识别模型可以对复杂布局进行高精度分析。

官方表示，识别场景包括教育（书籍、作文批改）、专利、学术论文、报纸、财务文件、体检报告、自然场景、PPT、产品说明书、海报、读物、药盒、APP截图等。

对于上述场景，你可以针对图片中的文字信息提出问题，也可以根据文字信息提出更深入、综合的问题。

以我刚买的“鼻喷剂”为例，我用手机拍下了说明书的照片，然后上传到科大讯飞Spark V3.5。

笔者询问了注意事项和使用方法，科大讯飞Spark V3.5能够给出具体的解答。

从结果来看，基本上都是对说明书中的文字信息进行“OCR”，然后根据词义进行组织，反馈给提问者。

对于更复杂的场景，作者上传了USB测试仪使用说明书的截图：

针对不同接口询问功能问题，科大讯飞Spark V3.5的回答也令人满意。

作者上传了一张之前活动中拍摄的PPT图片，并要求科大讯飞Spark V3.5提取照片中的关键点。

结果显示，科大讯飞Spark V3.5准确识别了照片中的内容，正确判断这是广汽集团的技术演示。它还注意到在场观众表现出的高度关注。

在此，我想简单表达一下我的感受。这个功能的想象空间确实是巨大的，尤其是对于视障人士来说。虽然他们的眼睛看不到，但他们只需要用手机拍照并上传到科大讯飞Spark。能够通过语音描述立即向视障人士传达眼前的世界，可以给日常生活带来很大的帮助。

当然，目前的体验并不完美。比如出现了“随机回读”的现象（下图）。答案看不懂，还有一些优化的空间。

三、长语音、视频体验

在当今的学习和生活中，我们不仅需要大型模型来辅助文字处理，还需要它们来辅助处理语音和视频数据。尤其是在“全民短视频”的趋势下，一两句话能讲清楚的东西就必须做成视频。

同时，对于学生和专业人士来说，视频材料，无论是学术讲座还是商业采访，都蕴含着丰富的信息。关键是，如何高效地从这些视频中提取核心点？

升级后的科大讯飞Spark V3.5可以帮助用户快速捕捉和理解这些多媒体内容中的关键信息。

这篇音频文章作者是从IT之家《今天，北京车展，哭笑嘿哈》上传的，时长约19分钟。

关于音频，笔者询问了音频的主要内容，科大讯飞Spark V3.5在很短的时间内给出了答案。

从结果来看，基本令人满意。

不过细节上也存在一些小错误，比如将极氪识别为“极客”，将蔚来ET7识别为“A7”，但瑕疵并没有被掩盖，这样的表现已经很出色了。要知道上面的音频中包含了各种新技术术语、新车名以及各种中英文混杂的情况，本身就非常难以识别。

接下来，笔者针对腾势、迈腾等新车提出了更具体的问题，科大讯飞Spark V3.5的回答非常令人满意。

iFlytek Spark V3.5还支持上传视频。以IT之家发布的《种草华为运动健康全家桶》导购视频为例。视频时长6分钟。

首先，作者让他概述一下整个视频内容，科大讯飞Spark V3.5给出了准确的答案。

不过细节上出现了一个小错误，将“HarmonyOS”识别为“Harm 6s”（也可能和视频中的发音有关），但总体答案并没有偏离主题，也没有给出答案一个模棱两可的答案。

让视频推荐哪些产品值得购买，科大讯飞Spark V3.5还可以按顺序排列，并给出每款产品的亮点。

另外，在体验上，科大讯飞Spark V3.5在识别过程中加载时间并不算太长。基本问题在“秒”内得到解答，使用得越多，速度就越快，提出的问题也就越多。响应速度越快。

四、讯飞星火语音大模型

讯飞Spark V3.5此次升级了Spark语音模型，带来了前两个功能“多情感超拟人合成”和“一句话语音再现”，是更有趣的体验。

语音对话是类似通话的界面，科大讯飞Spark模型提供的答案非常接近自然人声。虽然带有一丝机器人特有的魅力，但整体还是非常真实的。

“一句话语音再现”很有趣。它可以模仿您的声音或您周围其他人的声音。声纹录制完成后，您可以在“我创建的音箱”中找到您的声音。选择后，使用语音交互时，大模型会用自己的声音跟你说话，声音再现相当逼真。

总结：

人工智能并不是一个新概念。几年前，当谈到人工智能改变生活时，笔者总觉得这是一个天方夜谭，遥不可及。然而，短短两三年时间，人工智能技术发生了爆炸性的升级和变革，真正的人工智能黄金时代即将到来。

在这个过程中，科大讯飞既是参与者，又是推动者。科大讯飞的Spark模型只是科大讯飞在人工智能领域创新的具体体现之一。

此次科大讯飞Spark型号V3.5升级，在长文本处理、图文识别、长语音视频处理等方面展现了出色的能力，重点关注增加用户在专业性和实用性方面的需求。经验。

正如文章开头提到的，我们每天都会接触到大量的信息。一份文字晦涩、专业术语堆积、合同晦涩难懂的合同，或者是复杂难懂的免责条款，都能让无数工人望而却步。

过去，你可能需要上网查各种信息，或者花钱请教专家来获得帮助。在这个过程中，你还可能会遇到各种充值、付款来显示答案，在寻找专家时难免会遇到各种骗子。

但随着科大讯飞Spark Model V3.5等应用的出现，上述问题处理起来就非常简单了。

类似的场景还包括那些冗长繁琐的会议音频。工作人员可以轻松地在数万个单词中找到最关键的句子；快速提取视频精华，甚至快速生成科研报告摘要。

虽然科大讯飞Spark Model V3.5在一些细节方面还需要优化，但其带来的想象空间无疑是巨大的。

用户评论

杰克

终于来了！一直等这款大的升级版本！长音频确实很重要的一部分，希望这次更新能真的解决之前遇到的听力和理解问题，期待尽快上手体验~

有11位网友表示赞同！

断秋风

我对这个长文本的支持很感兴趣，希望能看到更全面的文章生成能力，比如编故事、写诗歌之类的，这方面目前AI还是不太擅长吧？

有5位网友表示赞同！

旧爱剩女

说实话，对模型升级我没什么特别期待，因为我现在主要是用它来处理一些简单的问题和生成文本，长文本、长图文这些功能对我来说用的没那么频繁。

有10位网友表示赞同！

凉笙墨染

讯飞一直都是人工智能领域的领军企业，这次更新肯定是不负众望的！希望这个V3.5能带来更智能的体验，比如更精准的理解和生成，更流畅自然的交互模式。

有9位网友表示赞同！

白恍

长图文其实更考验模型对于图片的理解能力吧？之前试过一些AI识别图片内容的结果，总觉得还不太准确，不知道这次更新会有哪些提升

有9位网友表示赞同！

遗憾最汹涌

我一直觉得这行业需要的是更加注重用户体验的产品，而不是仅仅堆砌功能。这次更新能不能带来更多人性化设计呢？比如给用户提供更清晰的反馈、更简易的操作界面等等。

有5位网友表示赞同！

孤独症

期待这个能帮助我处理一些复杂的技术文档，现在那些全是专业术语看得头晕眼花！要是能自动提取关键信息就太棒了，省时省力不说，效率还能大大提高

有10位网友表示赞同！

无关风月

总有种感觉AI越来越像我们人类一样，能理解我们的语言，也能够表达自己的想法。这次更新是否会让我们更接近这一目标呢？

有17位网友表示赞同！

蹂躏少女

这个长语音的支持功能对我来说简直是福音！现在很多会议记录都是靠自己听打出来，太耗时间了。如果能自动生成文本就万事大吉了！

有6位网友表示赞同！

长裙绿衣

我个人不太喜欢这种不断更新版本的情况，每次都要重新学习使用，感觉很麻烦。希望能提供更稳定的产品体验，而不是频繁的迭代更新。

有17位网友表示赞同！

花菲

这个讯飞星火大模型越来越强大，以后估计很多的工作岗位都会被AI取代了…

有8位网友表示赞同！

你那刺眼的温柔

我担心长文本和长图文的处理能力会带来更大的数据安全问题，希望开发者们能慎重考虑隐私保护措施。

有16位网友表示赞同！

冷风谷离殇

长文生成太复杂了吧？我现在连短文都写的不尽理想，还用AI来写长篇大论…

有11位网友表示赞同！

凉城°

感觉现在科技发展速度越来越快了，还没适应某个技术就又出来了新的更先进的版本…

有6位网友表示赞同！

绝版女子

我是个语音党！一直希望能找到一款能够完美理解我口语的产品，这个更新能否给我带来惊喜呢？

有7位网友表示赞同！

淡淡の清香

长文本、长图文这些功能对我来说是额外加分项，我的主要需求还是简单快捷的文本处理。期待能继续完善基础功能！

有14位网友表示赞同！

绳情

讯飞星火一直都在默默进步啊，从最初的一个概念，到现在发展的越来越成熟，真的很期待未来AI能够帮助我们解决更多问题!

有17位网友表示赞同！

桃洛憬

个人认为AI模型发展应该更加注重多模态交互，才能更贴近人类的沟通方式。希望后续版本能在这方面有所突破！

有19位网友表示赞同！

热点资讯