37855635_p0_master1200

翻译:所知新兴敏感技术汇总

大四26考研,为了避免漫长备考路上导致对技术失去热情,每周五花时间了解新技术进展

Computer vision

Object Detection

Image Segmentation

Image Classification

OCR


NLP

TTS

Spark-TTS:基于单流解耦语音令牌的高效文本到语音模型

Demo:Spark-TTS

代码:GitHub - SparkAudio/Spark-TTS: Spark-TTS Inference Code

模型:https://huggingface.co/SparkAudio/Spark-TTS-0.5B

论文:https://arxiv.org/abs/2503.0171

个人理解:关键用少量样本形成语音模型


LLM

GoogleAistudio-Gemini2.0

Google最新大模型aistudio使用教程,Gemini 2.0绘图,怎么打开Google Gemini 2.0附详细步骤。 - 知乎