从需求出发,挖掘好创意,场景驱动项目
如:社会治理、产业需求、趣味游戏
围绕已有的开源数据集去思考应用场景及实现技术
数据集平台:AIStudio、格物钛、Kaggle、和鲸等
这里再补充记录几个我用到过的:
Amazon WebServices(AWS)datasets
Googledatasets
Youtubelabeled Video Dataset
UCI MachineLearning Repository
ImageNet
中国统计年鉴数据集
围绕开源工具思考应用场景
PaddleVideo 足球、花样滑冰、乒乓球动作识别;异常行为识别
PaddleSpeech Vtuber嘉心糖、语音翻译、声音分类
升级已有的开源项目
站在巨人的肩膀上+自己的idea(有点像“基于xxx算法的xxx研究”系列论文的引言部分的撰写过程)
1.创意来源于生活(用心、用心、用心。用沐神的比喻来说,随机梯度下降的第一个词是随机,就是你需要四处走走,看过很多地方,做些错误的决定,最终找到你自己的目标函数)
2.数据集很关键(巧妇难为无米之炊,自己动手的话更要关注数据清洗与特征工程)
3.关注技术(多读paper)
4.多思考(如在AIStudio平台上研究感兴趣的开源项目,获得启发)
今天在想作业一数据集选啥,比较感兴趣的数据集是网络安全和遥感影像。原因是寒假发现CTF有点好玩,还有去年大一错过的MathorCup数模A题的遥感耕地面积识别。一个偏处理与数据分析,如果是那个DDoS数据集的话我预测可能是一个时间序列模型,另一个是CV,希望这一次能好好做一下,或许有时间我两个都想尝试一下呢= =。