fg-perspective 数据抓取清单
这个项目的 skill 要跑得好,不能只喂一个股价。fg-perspective 的判断依赖“竞争格局、渗透率、财务质地、估值、技术位置、催化剂、原始披露”交叉验证。数据抓取的目标是让 Codex 能先判断“这家公司是什么题”,再判断“便宜还是贵、好还是烂、现在该不该碰”。
抓取原则
- 原始事实优先于聚合标签:会影响结论的字段,优先追 SEC/交易所公告/年报/季报/招股书/Form 4/13D/13G 等原始披露。第三方的 Buy/Sell、Cheap/Expensive、Good/Bad 只能做线索。
- 每个数字必须带日期和来源:至少记录
source、as_of_date、period、currency、is_reported_or_estimated。 - 统一口径再比较:币种、会计准则、财年、拆股复权、TTM、Non-GAAP/GAAP、A股/港股/美股披露差异要明确。
- 历史趋势比单点更重要:财务数据至少抓 5 年年度 + 8 个季度;长牛股和周期股最好抓 10 年年度。
- 先满足最小可运行集,再补增强数据:没有完整数据时也能分析,但必须明确缺口和置信度。
最小可运行数据集
如果只想让 skill 能给出一版有质量的初判,至少需要这些:
| 模块 | 必需数据 |
|---|---|
| 标的身份 | ticker、交易所、公司名、国家/地区、行业、主营业务、上市币种、财报币种 |
| 当前行情 | 最新价、市值、总股本、流通股本、52周高低、近1年/3年/月线K线 |
| 财务三表 | 5年收入、毛利、营业利润、净利润、EPS、经营现金流、资本开支、自由现金流、现金、债务、净资产、应收账款、存货 |
| 核心指标 | 收入增速、毛利率、净利率、ROE、ROIC、FCF margin、负债率、净债务/EBITDA、应收账款增速 vs 收入增速 |
| 估值 | PE TTM、Forward PE、PB、PS、EV/EBITDA、EV/FCF、股息率、历史估值分位 |
| 股东回报 | 分红历史、回购金额、股本变化、SBC 稀释 |
| 行业对标 | 3-8 个核心可比公司及其市值、增速、利润率、估值、市占率 |
| 催化剂 | 下一次财报日期、管理层指引、重大产品/合同/监管/并购/行业会议 |
| 原始披露 | 最近年报、最近季报、最近电话会纪要或管理层讨论 |
完整抓取清单
1. 标的身份与基础信息
tickerexchangecompany_namelegal_namecountryheadquarterslisting_currencyreporting_currencyfiscal_year_endsectorindustrybusiness_descriptionmain_productssegmentslisting_dateisin/cusip/cik/sedol/ A股证券代码share_classesadr_ratio,如适用
用途:确认是不是同一个标的,避免 ADR、本地股、多重上市、不同币种造成误判。
2. 行情与技术位置
- 最新价、前收盘价、成交额、成交量、平均成交量
- 市值、企业价值、总股本、流通股本、自由流通市值
- 日线 OHLCV:至少 3 年
- 月线 OHLCV:至少 10 年,或上市以来
- 52 周高低、历史高点、最大回撤
- 复权因子、拆股、送股、分红复权
- 5月线、10月线、年线、5年线
- RSI、波动率、成交量放大倍数
- 相对指数表现:相对沪深300/恒生指数/S&P 500/Nasdaq/行业指数
用途:技术分析只当“仪表盘”,判断现在在低位、半山腰、加速顶部,不能用来单独预测方向。
3. 财务三表
年度数据建议 10 年;最低 5 年。季度数据建议 12 个季度;最低 8 个季度。
利润表
- 收入
- 收入分部
- 毛利
- 营业利润
- EBIT
- EBITDA
- 税前利润
- 归母净利润
- 少数股东损益
- EPS basic / diluted
- 股权激励费用 SBC
- 研发费用
- 销售费用
- 管理费用
- 利息费用
- 一次性损益、资产减值、重组费用
资产负债表
- 现金及等价物
- 短期投资
- 应收账款
- 存货
- 预付款
- 固定资产
- 使用权资产
- 商誉
- 无形资产
- 总资产
- 短债
- 长债
- 租赁负债
- 应付账款
- 合同负债/预收账款
- 总负债
- 股东权益
- 有形净资产
现金流量表
- 经营现金流 CFO
- 资本开支 Capex
- 自由现金流 FCF
- 收购支出
- 处置资产现金流
- 分红支付
- 回购支出
- 发债/还债
- 股权融资
用途:判断公司有没有真赚钱、钱是不是收得回来、利润是不是靠一次性项目撑起来。
4. 派生财务指标
- 收入 CAGR:3年、5年、10年
- 净利润 CAGR:3年、5年、10年
- EPS CAGR:3年、5年、10年
- 毛利率、营业利润率、净利率、FCF margin
- ROE、ROA、ROIC
- 资产周转率、固定资产周转率、存货周转率
- 应收账款周转天数 DSO
- 存货周转天数 DIO
- 应付账款周转天数 DPO
- 现金转换周期 CCC
- 应收账款增速 vs 收入增速
- 存货增速 vs 收入增速
- CFO / 净利润
- FCF / 净利润
- 净债务、净现金
- 净债务 / EBITDA
- 利息保障倍数
- 有息负债率
- SBC / 收入
- SBC / FCF
- 回购金额 - SBC 稀释后的真实净回购
用途:对应 F哥框架里的毛利率生死线、现金流质量、稳中有升、分红验证真实盈利。
5. 估值数据
- PE TTM
- Forward PE
- PB
- PS
- EV / Revenue
- EV / EBITDA
- EV / EBIT
- EV / FCF
- P / FCF
- PEG
- 股息率
- 回购收益率
- 股东回报率:股息率 + 净回购收益率
- 历史估值区间:5年/10年 PE、PB、PS、EV/EBITDA 分位
- 可比公司估值表
- 分部估值所需数据:各业务收入、利润、增速、同业估值
- 周期股专用:PB、吨/桶/度/运力/产能市值、单位产能 EV、周期中枢盈利
注意:周期股盈利顶峰时 PE 往往最低,不能只靠 PE 判断便宜。
6. 分红、回购与股本变化
- 每股分红历史
- 分红总额
- 派息率:分红 / 净利润、分红 / FCF
- 分红连续性和增速
- 回购金额
- 回购均价
- 期初/期末 diluted shares
- 股票增发、配股、可转债、期权、RSU
- SBC 稀释
- 管理层资本配置表述
用途:不分红不等于一定造假,但在 F哥框架里必须降低对“真赚钱”的信任度。回购必须扣掉 SBC 稀释。
7. 行业、竞争格局与渗透率
- 行业定义和公司所在环节
- TAM / SAM / SOM
- 行业规模:收入、销量、用户数、产能
- 行业增速:历史 5 年 + 未来 3 年预期
- 渗透率:当前、历史、天花板
- 龙头市占率
- Top 3 / Top 5 / Top 10 市占率
- HHI,如能取得
- 主要竞争对手列表
- 竞争对手收入、利润率、增速、估值
- 上游供应商集中度
- 下游客户集中度
- 定价方式:市场价、合同价、监管价、招投标、会员费、订阅费
- 产能扩张计划
- 行业库存水平
- 价格指数或产品 ASP
- 替代品和技术路线变化
用途:第一层先判断竞争格局。格局不清晰,再便宜也要谨慎。渗透率决定估值方法切换:0-5%、5-30%、30%+、50%+ 是四个完全不同的题。
8. 商业模式与经营指标
不同公司要按业务类型补充经营数据。
消费/品牌
- 单价、销量、渠道库存
- 经销商数量
- 预收款/合同负债
- SKU 变化
- 复购率、会员数
- 毛利率和渠道费用率
互联网/SaaS/平台
- DAU / MAU
- 付费用户
- ARPU / ARPPU
- 留存率
- 流失率
- LTV / CAC
- GMV
- Take rate
- 订阅收入占比
- NRR / GRR
制造业
- 产能、产量、销量
- 稼动率
- 单位成本
- 原材料价格
- 折旧年限
- 技术路线迭代
- 资本开支计划
周期/资源
- 商品价格
- 单位现金成本
- 储量、品位、寿命
- 产量指引
- 库存周期
- 供需缺口
金融
- 净息差
- 不良率
- 拨备覆盖率
- 资本充足率
- AUM
- 交易量
- 赔付率,如保险
用途:不同生意不能套一个模板。F哥框架里“选简单的题做”,经营指标是判断这题难不难的关键。
9. 原始披露与管理层材料
- 最近 3 年年报
- 最近 8 个季度季报
- 最近 4 次电话会纪要
- 投资者日材料
- 招股书,如上市时间较短
- 管理层指引
- 风险因素变化
- 分部披露变化
- 重大合同公告
- 监管问询/处罚/诉讼
- 审计意见
- 会计政策变化
- 关联交易
用途:聚合数据只能扫盘,判决前要回到原始文件。尤其是一次性收入、分部变化、管理层口径变化。
10. 内部人、股东与筹码结构
美股
- Form 4 原始交易
- Transaction Code:P / S / F / M / A / G
- 是否 10b5-1
- 10b5-1 plan adopted date
- 交易人职务:CEO、CFO、董事、10% holder
- 交易数量和金额
- 交易后持股
- Form 144
- 13D / 13G
- 机构持仓变化
- 大股东锁定期到期
A股/港股
- 前十大股东
- 前十大流通股东
- 控股股东质押比例
- 高管增减持公告
- 限售股解禁日历
- 北向/南向资金持仓,如适用
- 机构持仓比例
用途:不能把聚合源的 insider sell 直接当看空。预设卖、税款扣股、行权和主动卖是完全不同的信号。
11. 催化剂地图
必须抓未来 6-12 个月:
- 财报日期
- 股东大会
- 投资者日
- 新产品发布时间
- 重大合同到期或重谈
- 监管审批节点
- 诉讼/仲裁关键日期
- 并购交割和整合节点
- 行业会议
- 政策发布时间窗口
- 锁定期到期
- 指数纳入/剔除
- 产能投放时间
- 管理层承诺的里程碑
用途:历史数据说明公司在哪里,催化剂说明公司要去哪里。
12. 市场情绪与叙事
- 新闻热度
- 研报标题和评级变化
- 社交媒体热度
- 搜索趋势
- 卖方一致预期变化
- 目标价分布
- 空头比例
- 借券费率
- 期权隐含波动率
- Put/Call ratio
- IPO/再融资/解禁节奏
- 主要叙事是谁在讲:公司、VC、卖方、媒体、KOL、产业方
用途:识别 FOMO、优先/劣后叙事、热门股定价过满。情绪数据不能替代基本面,只能判断拥挤程度。
13. 宏观与外部变量
按行业选择,不必所有公司都抓。
- 利率:美国国债、中国国债、信用利差
- 汇率
- 通胀
- PMI
- 消费数据
- 商品价格:油、气、煤、铜、铝、锂、金、银、农产品
- 运价
- 电价
- 房地产销售/开工/竣工
- 汽车销量
- 手机/PC/服务器出货
- 广告市场增速
- 政策补贴和税收变化
用途:周期股、出口链、资源股、金融股和宏观敏感行业必须抓外部变量,否则容易把周期当成长。
数据来源优先级
| 优先级 | 来源类型 | 用途 |
|---|---|---|
| P0 | 公司公告、年报、季报、交易所披露、SEC EDGAR、港交所/A股公告 | 最终判决依据 |
| P1 | 官方统计、行业协会、监管机构、海关、央行、交易所行情 | 行业和宏观验证 |
| P2 | 财务数据供应商、行情 API、券商数据库 | 批量抓取和初筛 |
| P3 | 卖方研报、新闻、电话会转写、专家访谈 | 催化剂和叙事线索 |
| P4 | 社交媒体、KOL、论坛 | 情绪和 FOMO 指标 |
建议输出结构
推荐每只股票只产出 一个 Markdown 文件,方便直接传递、粘贴或作为上下文喂给 fg-perspective:
data/<ticker>-fg-data.md
这个单文件里同时包含:
- 标的身份
- 行情与估值
- 财务三表摘要
- 派生指标
- 分红、回购、股本变化
- 行业竞争格局
- 可比公司
- 原始披露核验
- 内部人/大股东
- 催化剂地图
- 红灯字段
- 缺失数据
- 来源日志
原则:不要把数据拆成多个附件。如果某张表很长,就在同一个 Markdown 文件里折叠成“近 5 年年度表”“近 8 季度表”“可比公司表”。Skill 需要的是一个完整上下文,而不是一堆需要重新拼装的文件。
单文件命名
data/<ticker>-<YYYY-MM-DD>-fg-data.md
示例:
data/AAPL-2026-05-16-fg-data.md
data/601678.SH-2026-05-16-fg-data.md
单文件来源日志
在文件末尾放 ## 来源与口径,至少记录:
- 抓取时间
- 数据源 URL、公告名或文件名
- 覆盖期间
- 币种
- 是否复权
- 是否 restated
- GAAP / Non-GAAP 口径
- TTM / 年度 / 季度口径
- 缺失字段
- 人工判断备注
分析前质量门槛
在调用 fg-perspective 前,先检查:
- 是否知道这家公司到底靠什么赚钱
- 是否有 5 年以上财务趋势,或明确说明上市时间不足
- 是否有现金流和应收账款数据
- 是否能区分经常性利润和一次性利润
- 是否有至少 3 个可比公司
- 是否知道行业渗透率大致阶段
- 是否知道当前估值处在历史什么位置
- 是否有未来 6-12 个月催化剂
- 是否追过影响结论的原始披露
- 是否列出关键缺失数据
如果这些缺失超过 3 项,结论必须降级为“初筛/粗看”,不能写成强判断。
红灯字段
这些字段一旦出现异常,要在分析里显式展开:
- 收入增长但经营现金流不增长
- 应收账款增速长期高于收入增速
- 毛利率下滑且没有合理解释
- 高毛利但净利率长期很低
- ROE 靠高杠杆撑起来
- 大额商誉和频繁并购
- 回购金额看起来很大,但股本没有下降
- SBC 长期吞噬 FCF
- 不分红、不回购、还持续融资
- 基本面恶化但只因为“便宜”而想买
- 周期股在盈利顶峰用低 PE 讲便宜
- 商业模式没变但股价和 PB 已经极端偏离历史均值
- 竞争格局不清晰但市场空间故事很大
- 渗透率已经 50%+,市场还按高速成长股估值
- 内部人卖出没有追 Form 4 / 10b5-1 原文
单文件模板
抓完数据后,最好把所有内容整理成下面这种 一个文件:
# <ticker> fg-perspective 数据包
## 标的
- 公司:
- 交易所:
- 主营:
- 财报币种:
- 数据截至:
- 文件生成时间:
## 一句话业务
## 当前行情与估值
- 股价:
- 市值:
- PE/PB/PS/EV EBITDA/FCF yield:
- 历史估值分位:
- 52周高低:
- 技术位置:
## 财务趋势
- 5年收入 CAGR:
- 5年 EPS CAGR:
- 毛利率/净利率/ROE/ROIC:
- CFO/净利润:
- FCF:
- 应收账款增速 vs 收入增速:
### 近 5 年年度财务表
| 年度 | 收入 | 毛利率 | 净利率 | 净利润 | CFO | FCF | ROE | ROIC | 应收账款 | 存货 |
|---|---:|---:|---:|---:|---:|---:|---:|---:|---:|---:|
### 近 8 季度财务表
| 季度 | 收入 | 同比 | 毛利率 | 净利润 | CFO | FCF | 应收账款 | 存货 |
|---|---:|---:|---:|---:|---:|---:|---:|---:|
## 股东回报
- 分红:
- 回购:
- 股本变化:
- SBC/稀释:
## 行业与竞争
- 行业阶段/渗透率:
- 主要竞争对手:
- 市占率:
- 上下游验证:
### 可比公司表
| 公司 | 市值 | 收入增速 | 毛利率 | 净利率 | ROIC | PE | PB | PS | EV/EBITDA | 市占率 |
|---|---:|---:|---:|---:|---:|---:|---:|---:|---:|---:|
## 商业模式关键指标
-
## 催化剂
- 未来 6-12 个月事件:
## 原始披露核验
- 年报/季报:
- 电话会:
- 内部人/大股东:
## 红灯字段
-
## 缺失数据
-
## 来源与口径
- 抓取时间:
- 价格数据来源:
- 财务数据来源:
- 原始披露来源:
- 行业数据来源:
- 币种:
- 复权口径:
- GAAP/Non-GAAP:
- 备注: