摸鱼 职场 Rules & Tips
1. 遵守中国大陆相关法律法规
2. 反对成功学和贩卖焦虑
3. 提倡分享从业心得和经验

各位虫友,有搞过科技项目的吗?

查看: 8181|回复: 9
dxxwait 发表于 2025-4-9 16:26:11
我在自己工作的业务范畴里面还算是一名骨干,由于领导要求,需要承担一个科技项目,可本人严格来说就是一个门外汉,啥都不懂。

特向各位虫友请教一下!望不吝赐教,谢谢!

项目方向:需要从无到有建立一个数据挖掘大模型,目的是用于在天量的多源异构数据里面进行按特征或者需求来进行数据采集工作。

项目要求:一是需要根据自身工作职责提炼出采集数据的条件和特征,以便模型建设方向或者算法的设计。二是关于技术方面和模型建设具体工作有外部人员帮助,我只需要提需求或者提供一些正负样本就行了。三是整个项目一大堆的人,但是具体做事的就只有我和另一个刚入行的小妹妹(名校研究生,思路及能力都很强)。事成后,功劳可能会有,但是主要肯定不是我,但是鉴于行业发展需要以及第一次参与科技项目,我还是想把事情尽量做好。

请教各位虫友大佬:

  • 在没有任何经验的情况下,负责一个项目如何快速或者高效的从零开始上手?
  • 关于搞项目这个事,有没有虫友可以给些具体经验或者注意事项之类的建议?
  • 利用大模型进行数据挖掘这个事的核心重点在哪个环节?
  • 总结和提炼模型挖掘的特征有这方面学习的相关书籍或者学习渠道推荐吗?


bow all!

cress2002 发表于 2025-4-22 22:56:18
bow back:你这个事很简单,就是一份营生,又不是去拿奖,只需把握两个原则:
1、人性
2、工具

1、在没有任何经验的情况下,负责一个项目如何快速或者高效的从零开始上手?
不必成为技术专家,也没人那样期待你,假设你是一个销售总监,现在的任务是让你搞一份海量点击/成单/评论的一键有效数据提炼系统,这不难为人吗?你需要发挥的,是你的销售经验,这是无人替代的稀缺资源。一头扎进技术里你就输了。

至于技术,就不是技术问题,是人的问题。
a. 命令AI用大白话解释全部可能性术语,做到你不被忽悠——这是唯一需要对自己下功夫的事,确保沟通没大障碍
b. 花一周时间,与技术建模团队、小妹妹,打好关系,有事没事就聊聊,他们的小心思和焦虑是什么,有了a,你是能听懂他们的话的,偶尔送点巧克力,就这点事
c. 有了a和b,你就能提出精准的”要求“与”检验标准“,剩下的,交给别人去做

记住,你要做的是提出好问题/好要求,并且自己会验证结果,而不是当技术大拿。

2、关于搞项目这个事,有没有虫友可以给些具体经验或者注意事项之类的建议?
你这是一个仕途问题:
a. 敏感的识别出,整个事里,我的领导是谁,在焦虑什么;技术团队真正领导是谁,在焦虑什么……等等,也就是研究人,不要研究事
b. 当心被甩锅,很容易被人扣帽子,为避免,就得定期向真正权力领导汇报进度,并保留书面记录,否则就会成为别人嘴里”都半个月过去了,他那一点动静没有,严重耽误我们啊,这人不行啊“

3、用大模型进行数据挖掘这个事的核心重点在哪个环节?
分两块:数据质量、建模质量

你不说了吗,建模由技术团队进行,他们最怕什么?最怕垃圾——垃圾进,垃圾出,他们搞出再牛逼的模型,也没卵用,所以他们最在乎数据的质量,哪怕少一点,宁缺毋滥。

所以你这块的重点:
a. 用你的业务经验,重新定义,什么叫”有价值“的数据,这种一线经验和直觉,不是那帮程序员能搞定的,这种价值,是跟业务绑定的,只有你有资格去定义。
b. 用清晰的标准或步骤,告诉小妹妹,如何找到这种有价值的数据——特征值?时间关联?其他字段关联?……剩下具体怎么筛,那是小妹妹的事情,你只负责提出要求,并且会检测产出是否符合要求,遇到问题也会指导方向,就行了,你需要全程说人话,这也是个强技巧。

4、总结和提炼模型挖掘的特征有这方面学习的相关书籍或者学习渠道推荐吗?
直接问AI,99%的书都水,论文也水,到处都是学术老油条,而真正什么书有用,这本身是信息差,没那么容易获取。
所以现在AI技能,已成为第0步的元技能。

最后:不要去研究事,去研究人!
这不是一个技术问题,技术一文不值。
lcylsr 发表于 2025-4-10 19:09:38
按照之前统计学经验
1.边做边上手,考虑越多越不想下手;
2. 建议每个人分担好职责,可以一个人负责收集样本和协调外部工作,一个人写数据挖掘等代码(可以套代码/问AI);
3. 数据筛选(排除极端值&不可信的数据,确保数据可靠),根据数据样本选择对应模型;
4. 问AI更直接
windyer 发表于 2025-4-13 17:55:17
从无到有做一个项目,你有这么几个关键词:
数据挖掘大模型, 天量的多源异构数据, 按特征或者需求来进行数据采集
translate to english:
large model for data mining, massive multi-source heterogeneous data, Data collection based on features or requirements
综上,你要做的是数据挖掘,当你把关键词 large AI model  for multi-source heterogeneous data Data  Review 扔给google scholar,你可以得到:
image.png
接下来就是根据你的目的,结合文章质量来找文献资料,重点关注哪些给了code的,方便即拿即学即用。
除此之外,知网也可以去搜索,ProQuest Dissertations & Theses等等,看博士论文,看引言,做方向了解。

同样在github搜索:https://github.com/search?q=data ... p;type=repositories,你也可以找到很多资料


 楼主| dxxwait 发表于 2025-4-14 15:01:38
lcylsr 发表于 2025-4-10 19:09
按照之前统计学经验
1.边做边上手,考虑越多越不想下手;
2. 建议每个人分担好职责,可以一个人负责收集样 ...

感谢大佬的建议!
 楼主| dxxwait 发表于 2025-4-14 15:01:58
windyer 发表于 2025-4-13 17:55
从无到有做一个项目,你有这么几个关键词:
数据挖掘大模型, 天量的多源异构数据, 按特征或者需求来进行 ...

谢谢大佬的指导!
esearchi 发表于 2025-4-20 08:28:01
你需要的是找到一家可以帮你出项目立项报告或技术方案的外包公司,边做边学。
 楼主| dxxwait 发表于 2025-4-22 15:47:20
esearchi 发表于 2025-4-20 08:28
你需要的是找到一家可以帮你出项目立项报告或技术方案的外包公司,边做边学。 ...

现在不允许这样了,在我这个项目之前大家好像都是那样做的,现在因为外拨费用按比例被卡死了,导致只能找一些外部协助,并不能完全外包
 楼主| dxxwait 发表于 前天 11:22
cress2002 发表于 2025-4-22 22:56
bow back:你这个事很简单,就是一份营生,又不是去拿奖,只需把握两个原则:
1、人性
2、工具

首先,感谢大佬的全面分析与答复,就该工作而言已经帮助我理清了整个链条了,;
然后,现阶段项目工作已经过去一个多月时间了,确实已经出现了你答复中预判的一些情况了(比如扎进了本不该我去学习的技术内容和背锅的情况,就背锅这个事我是没想到人性如此复杂,我也不打算就已发生的事再去纠结什么了,做好该做的事,防备别有心思的人);
最后,再次感谢大佬,为我理清了思路、明确了我该努力的方向和整个项目过程中自身所应该注意的事项,寥寥数语无以言表,祝愿虫友未来更美好。
cress2002 发表于 前天 12:23
dxxwait 发表于 2025-4-29 11:22
首先,感谢大佬的全面分析与答复,就该工作而言已经帮助我理清了整个链条了,;
然后,现阶段项目工作已 ...

有用就好,你爽我也爽 ~_~
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

虫部落 陕ICP备14001577号-1川公网安备 51019002003015号联系我们FAQ关于虫部落免责声明虫部落生存法则社区广场RSS

Build with for "make search easier" Copyright © 2013-2025. Powered by Discuz! GMT+8, 2025-5-1 23:27

快速回复 返回顶部 返回列表