Trovare gli URL noti e quelli nascosti di un sito è un’attività utile in audit di sicurezza, SEO tecnica, migrazioni, pulizia contenuti e hardening. Non si tratta solo di scoprire pagine dimenticate: spesso gli URL “orfani” rivelano file sensibili, vecchi endpoint, directory di staging, backup esposti o aree amministrative non protette.
Il principio giusto è semplice: prima raccogliere gli indizi già pubblici, poi verificare la struttura reale del sito, infine confrontare ciò che è accessibile con ciò che dovrebbe esserlo. In pratica, si lavora per livelli: mappa pubblica, inventario tecnico, contenuti dinamici, log e risposta del server.
1. Cosa intendiamo per URL noti e URL nascosti
Gli URL noti sono quelli già visibili o documentati: menu del sito, sitemap, feed, link interni, pagine indicizzate dai motori di ricerca, URL presenti nei social o in documenti pubblici.
Gli URL nascosti sono quelli non immediatamente visibili ma ancora raggiungibili: vecchie pagine, file di backup, directory non linkate, endpoint API, percorsi di amministrazione, ambienti di test, parametri che generano contenuti, file caricati in cartelle prevedibili.
Dal punto di vista della sicurezza, il problema non è solo “esistono”, ma sono raggiungibili senza controllo. Un URL non linkato non è automaticamente sicuro.
2. Verifiche immediate: da dove partire
Se devi fare un controllo rapido su un sito, parti da questi punti:
- Controlla `robots.txt`: spesso contiene percorsi interessanti, anche se non garantisce protezione. Cerca direttive `Disallow` e riferimenti a sitemap.
- Controlla la `sitemap.xml`: è una mappa ufficiale degli URL che il sito vuole esporre ai motori.
- Esamina il codice sorgente delle pagine principali: link nascosti, asset, commenti HTML, riferimenti a endpoint e file JS possono rivelare percorsi non evidenti.
- Verifica i log del web server: access log e error log mostrano richieste reali, scan automatizzati, 404 frequenti e URL mai linkati.
Esito atteso: dopo questi quattro controlli dovresti avere una prima lista di URL pubblici, semi-pubblici e sospetti.
3. Metodo pratico per trovare gli URL noti
Per i contenuti dichiarati dal sito, il modo più pulito è costruire l’inventario dai punti ufficiali. Questo riduce il rumore e ti dà una base affidabile da confrontare con il resto.
3.1 Sitemap e feed
La sitemap è il primo riferimento. Se il sito usa WordPress, Joomla, Drupal o un CMS moderno, può esistere una o più sitemap, anche generate da plugin o moduli SEO.
Controlla:
/sitemap.xml/sitemap_index.xml- eventuali sitemap per immagini, prodotti, categorie o post
Se trovi più sitemap, non fermarti alla principale: spesso le sezioni meno visibili sono separate in file diversi.
3.2 Navigazione e linking interno
Scorri menu, footer, breadcrumb e pagine correlate. Gli URL realmente importanti sono spesso quelli collegati in più punti del sito. Più un link è ripetuto, più è probabile che rappresenti una pagina stabile e intenzionale.
3.3 Motori di ricerca
Una ricerca mirata può mostrare URL che il sito non collega più, ma che risultano ancora indicizzati. Usa query come:
site:dominio.tldsite:dominio.tld filetype:pdfsite:dominio.tld intitle:index of
Il risultato non è completo, ma è utile per identificare vecchie pagine, documenti, allegati e directory indicizzate.
4. Metodo pratico per trovare URL nascosti
Qui il lavoro cambia: non cerchi solo ciò che il sito mostra, ma ciò che il server accetta o conserva. La regola è non forzare il sito in modo aggressivo: prima raccogli indizi, poi fai test mirati e limitati.
4.1 File comuni e percorsi prevedibili
Molti siti espongono file e directory standard. Alcuni esempi frequenti:
/admin,/login,/wp-admin,/wp-login.php/backup,/old,/test,/staging/uploads,/files,/media/.git,/.env,/config
Non tutti sono vulnerabilità, ma se rispondono con contenuti pubblici o directory listing, vanno trattati come esposizioni da correggere.
4.2 Analisi del codice HTML e JS
Molti URL nascosti compaiono in JavaScript, CSS, API chiamate in background, commenti o attributi data-. Cerca riferimenti a:
- endpoint JSON
- percorsi di immagini non linkati
- vecchie rotte di applicazione
- host di staging o sottodomini interni
Spesso il frontend moderno nasconde più di quanto sembri: il browser carica chiamate che non appaiono nel menu del sito.
4.3 Directory listing e file esposti
Se il server mostra l’elenco dei file di una directory, hai un problema di configurazione. Questo può rivelare backup, archivi, vecchie versioni del sito, PDF interni o file temporanei.
Un controllo utile è verificare se directory come /uploads/ o /backup/ rispondono con una lista di file invece che con un errore o con un index controllato.
4.4 Sottodomini e ambienti paralleli
Gli URL nascosti non sono solo percorsi. Anche i sottodomini possono essere “nascosti” dal punto di vista dell’utente finale: staging.dominio.tld, dev.dominio.tld, admin.dominio.tld, mail.dominio.tld.
Per individuare questi asset, è utile confrontare certificati TLS, DNS pubblici, link interni, header HTTP e log del server. Un sottodominio dimenticato può esporre una vecchia app con credenziali deboli o codice non aggiornato.
5. Strumenti utili e come usarli bene
Gli strumenti servono, ma vanno usati con metodo. Il rischio più comune è generare troppe richieste inutili e confondere il risultato con rumore o blocchi WAF.
5.1 Browser e strumenti di sviluppo
Apri gli strumenti sviluppatore del browser e controlla:
- tab Network per vedere richieste API, file caricati e redirect
- tab Sources per trovare endpoint hardcoded
- tab Elements per link nascosti nel DOM
Questo è il modo più sicuro per scoprire gli URL usati realmente dal frontend.
5.2 Crawl controllato
Un crawler con limiti ragionevoli può aiutare a mappare il sito. Imposta sempre un limite di profondità, ritmo lento e rispetto delle regole del sito. L’obiettivo è inventariare, non stressare il server.
Esito atteso: ottenere una lista di URL raggiungibili senza generare errori anomali o picchi di traffico.
5.3 Analisi dei log
I log sono spesso la fonte più sottovalutata. Cerca:
- richieste a URL che non compaiono nel menu
- 404 ripetuti su percorsi simili
- accessi a file sensibili o backup
- user-agent da scanner automatici
Se hai accesso a cPanel, Plesk o FastPanel, i log accesso/errori sono il primo posto da controllare prima di fare test più invasivi.
6. Procedura ordinata di audit
Se vuoi lavorare in modo serio, usa questa sequenza:
- Raccogli gli URL pubblici da sitemap, menu, footer, feed e ricerca motore.
- Estrai gli URL dal codice HTML e JavaScript delle pagine principali.
- Confronta i risultati con i log del server per vedere cosa viene richiesto davvero.
- Testa i percorsi sospetti con richieste mirate, controllando risposta, redirect, cache e autorizzazione.
- Classifica gli URL in pubblici, privati, obsoleti, da rimuovere, da proteggere o da monitorare.
Questo metodo evita la caccia casuale e produce un inventario utile anche per SEO, migrazione e sicurezza applicativa.
7. Cosa cercare nei risultati
Quando hai trovato URL aggiuntivi, non fermarti alla loro esistenza. Devi capire che ruolo hanno.
- Pagine obsolete: vecchi contenuti ancora online ma non più linkati.
- File sensibili: backup, export, log, configurazioni, dump.
- Endpoint amministrativi: login, pannelli, API di gestione.
- Ambienti di test: staging, dev, preview, beta.
- Contenuti duplicati: versioni multiple della stessa pagina che creano confusione SEO.
Un URL nascosto può essere innocuo oppure critico. La differenza la fanno permessi, contenuto e accessibilità.
8. Come distinguere un URL utile da uno pericoloso
Valuta tre elementi:
- Accesso: richiede autenticazione o è pubblico?
- Contenuto: mostra dati sensibili, amministrazione o file tecnici?
- Indicizzazione: dovrebbe essere visibile ai motori oppure no?
Se un URL è pubblico ma non dovrebbe esserlo, il problema è di esposizione. Se è accessibile ma non indicizzato, il problema può essere più grave perché spesso passa inosservato.
9. Azioni di correzione quando trovi URL indesiderati
Se il tuo obiettivo è difensivo, l’identificazione degli URL è solo metà del lavoro. La parte importante è ridurre l’esposizione.
- Rimuovi o proteggi i file sensibili con permessi corretti e controllo accessi.
- Disabilita directory listing sul web server.
- Blocca gli ambienti di staging con autenticazione, IP allowlist o accesso VPN.
- Elimina vecchi endpoint o restituisci codici appropriati, senza lasciare contenuti vivi.
- Aggiorna sitemap e robots per riflettere solo gli URL che vuoi davvero esporre.
Attenzione: robots.txt non protegge un URL, lo segnala soltanto. Se un file è sensibile, va rimosso o protetto lato server.
10. Esempio di checklist operativa
Prima di chiudere un audit, verifica questi punti:
- Sitemap letta e salvata
- Link interni mappati
- Endpoint JS/API identificati
- Log controllati
- URL sospetti classificati
- Eventuali esposizioni corrette o messe in quarantena
Se uno di questi punti manca, l’inventario non è completo.
11. Errori comuni da evitare
Il primo errore è confondere assenza di link con assenza di rischio. Il secondo è usare strumenti aggressivi senza limiti, finendo per bloccare il sito o inquinare i log. Il terzo è considerare “nascosto” tutto ciò che non è in homepage: un file può essere noto a chiunque conosca il nome giusto.
Un altro errore frequente è fermarsi al front-end. Oggi molti URL interessanti sono generati da API, CDN, app SPA, plugin o cache. Se guardi solo l’HTML statico, perdi metà del quadro.
12. Conclusione operativa
Per trovare URL noti e nascosti in un sito, lavora come farebbe un amministratore prudente: prima inventario pubblico, poi ricerca tecnica, infine verifica delle esposizioni reali. Il risultato utile non è una lista lunga, ma una lista pulita, classificata e verificata.
Se l’obiettivo è la sicurezza, ogni URL scoperto va trattato come un asset: o lo proteggi, o lo rimuovi, o lo documenti. Tutto il resto è rumore.
La vera differenza non è tra URL visibili e invisibili, ma tra URL controllati e URL dimenticati.
Commenti (0)
Nessun commento ancora.
Segnala contenuto
Elimina commento
Eliminare definitivamente questo commento?
L'azione non si può annullare.