/ dev / sda1を示す黒い画面で突然クラッシュする:
On 2月 15, 2021 by admin明らかな理由もなく、画面が突然「黒」になり、1行のテキストしか表示されないことがあります:
/dev/sda1: clean 1068388/64102400 files, 29744985/256399616 blocks
システムが再起動するかのように。しかし、その後は何も起こらず、リセットボタンを押す必要があります。
これは現在3回発生しています。朝の新たなスタートの直後に一度、大きなタスクを実行することはありません(ブラウザを開くだけで再現できません)。極端な負荷(ニューラルネットのトレーニング)では発生しなかったため、この投稿のようにこれは熱の問題ではないと確信しています。
/var/log/kern.log
ファイル
... [ 0.024000] tsc: Fast TSC calibration failed ... ... [ 0.796335] dpc 0000:00:01.1:pcie010: DPC error containment capabilities: Int Msg #0, RPExt+ PoisonedTLP+ SwTrigger+ RP PIO Log 6, DL_ActiveErr+
で次の疑わしい行を見つけました。最後の行が3回表示されています。行ですが、それが何を意味するのかわかりません。
実行中:
- OS:Ubuntu 18.04
- カーネル:4.15.0 -39-汎用(x86_64)
- デスクトップ:GNOMEシェル3.28.3
- ディスプレイドライバー:NVIDIA 396.45
- コンパイラ:Clang 3.3 + LLVM 3.3 + CUDA 9.2
- ファイルシステム:ext4
仕様の非常に新しいデスクトップマシン:
- プロセッサ:AMD Ryzen Threadripper 1900X 8-コア@ 3.80GHz(16コア)
- マザーボード:ASRock X399 Professional Gaming
- メモリ:64512MB
- ディスク:1050GB Crucial_CT1050MX + 4001GB Elements SE 25FF
- グラフィック:2x SLI NVIDIA GeForce GTX 1080 Ti 11264MB
このpの原因は何でしょうか問題?
smartctl
コメントへの応答として、
sudo smartctl --all /dev/sda
からの出力は
=== START OF INFORMATION SECTION === Device Model: Crucial_CT1050MX300SSD1 Serial Number: 173818DBA7DB LU WWN Device Id: 5 00a075 118dba7db Firmware Version: M0CR060 User C apacity: 1.050.214.588.416 bytes [1,05 TB] Sector Size: 512 bytes logical/physical Rotation Rate: Solid State Device Form Factor: 2.5 inches Device is: Not in smartctl database [for details use: -P showall] ATA Version is: ACS-3 T13/2161-D revision 5 SATA Version is: SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s) Local Time is: Sat Nov 17 14:39:52 2018 CET SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x00) Offline data collection activity was never started. Auto Offline Data Collection: Disabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: ( 2783) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 13) minutes. Conveyance self-test routine recommended polling time: ( 3) minutes. SCT capabilities: (0x0035) SCT Status supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 100 100 000 Pre-fail Always - 0 5 Reallocated_Sector_Ct 0x0032 100 100 010 Old_age Always - 0 9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 454 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 333 171 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0 172 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0 173 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 1 174 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 1 183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0 184 End-to-End_Error 0x0032 100 100 000 Old_age Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 194 Temperature_Celsius 0x0022 074 059 000 Old_age Always - 26 (Min/Max 16/41) 196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0 197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 100 100 000 Old_age Always - 0 202 Unknown_SSD_Attribute 0x0030 100 100 001 Old_age Offline - 0 206 Unknown_SSD_Attribute 0x000e 100 100 000 Old_age Always - 0 246 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 945594898 247 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 29549867 248 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 8744251 180 Unused_Rsvd_Blk_Cnt_Tot 0x0033 000 000 000 Pre-fail Always - 4424 210 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 No self-tests have been logged. [To run self-tests, use: smartctl -t] SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.
更新(黒い画面ではなくログアウト)
ちょうど今、黒い画面ではなく、明確な理由もなくアカウントからログアウトしました。それらの問題は関連しているようです。このイベントの前後に、Vimはkern.log
でこれらの行を強調表示します。
Nov 19 09:44:52 Gauss kernel: [ 0.793729] dpc 0000:00:01.1:pcie010: DPC error containment capabilities: Int Msg #0, RPExt+ PoisonedTLP+ SwTrigger+ RP PIO Log 6, DL_ActiveErr+ Nov 19 09:44:52 Gauss kernel: [ 0.793735] dpc 0000:00:03.1:pcie010: DPC error containment capabilities: Int Msg #0, RPExt+ PoisonedTLP+ SwTrigger+ RP PIO Log 6, DL_ActiveErr+ Nov 19 09:44:52 Gauss kernel: [ 0.793744] dpc 0000:40:03.1:pcie010: DPC error containment capabilities: Int Msg #0, RPExt+ PoisonedTLP+ SwTrigger+ RP PIO Log 6, DL_ActiveErr+ ... Nov 19 09:44:52 Gauss kernel: [ 0.890282] RAS: Correctable Errors collector initialized. ... Nov 19 09:44:52 Gauss kernel: [ 1.026963] nvidia: module verification failed: signature and/or required key missing - tainting kernel ... Nov 19 09:44:52 Gauss kernel: [ 2.927217] scsi 10:0:0:1: Failed to get diagnostic page 0x1 Nov 19 09:44:52 Gauss kernel: [ 2.927219] scsi 10:0:0:1: Failed to bind enclosure -19 ... Nov 19 09:44:52 Gauss kernel: [ 5.227132] EXT4-fs (sda1): re-mounted. Opts: errors=remount-ro ... Nov 19 09:44:52 Gauss kernel: [ 5.602354] thermal thermal_zone0: failed to read out thermal zone (-61)
コメント
回答
X11またはWaylandGUIサーバーがクラッシュし、テキストモードコンソールに戻ったようです。 1行のテキストは、おそらく、GUIモードに切り替える前にシステムを起動したときに発生したファイルシステムチェックからのものです。 Ubuntu 18.04が最初の仮想コンソールでGUIを起動すると、GUIサーバーがクラッシュして再起動されない場合、その仮想コンソールは応答しなくなります。
(他のLinuxディストリビューションは従来GUIに7番目の仮想コンソールを使用していたため、X11サーバーのクラッシュ時にシステムがデフォルトの1番目の仮想コンソールに自動的に戻り、ログインプロンプトが機能するようになりました。Ubuntuは明らかにGUIサーバーから最初の仮想コンソールに移行してブートスプラッシュとGUIログインの間をよりシームレスに移行しますが、GUIサーバーがクラッシュした場合は、テキストモードログインにアクセスするために仮想コンソールを認識する必要があります。プロンプト。)
/var/log/kern.log
の行はすべて、Linuxカーネルの起動から数秒以内にログに記録されます(のseconds-since-startup値による)各行の先頭にある角括弧)なので、「おそらく直接関連していません。
Control + Alt + F2 を押してみてください。カーネルがまだ生きている場合は、黒い画面にテキストモードのログインプロンプトが表示されます。次に、ログインしてsudo systemctl restart gdm
を試してGUIを再起動するか、テキストモードでログやその他のトラブルシューティング情報を収集します。 gdm
を再起動すると、自動的にGUIに戻る場合がありますが、2番目の仮想コンソールのログインセッションは引き続きログインしたままです。おそらく、 Control-を使用してそれらを切り替えることができます。 Alt-F1 および Control-Alt-F2 。
カーネルログに何も表示されないため、カーネルは正常であり、デスクトップのみがクラッシュしている可能性があります。 。その場合は、他のログファイルの方が役立つ場合があります。
-
/var/log/gdm.log
-
/var/log/Xorg.0.log
存在する場合(うーん、Waylandに相当するものは何ですか?)
免責事項:私はUbuntu 18.04を自分で試したことがありません。この回答は、私が読んだ内容に基づいています。
コメント
-
gdm.log
はありませんが、grep -E "EE|WW" Xorg.0.log
は、” DRMデバイスを開けませんでした”を含む数行を示します。これは私のGPUに関連している可能性がありますか?ペーストビンは次のとおりです。 paste.ubuntu.com/p/zJ9Gqhfq9B -
Xorg.0.log
はX11サーバーが起動するたびに置き換えられるため、’がすでにGUIを再起動したか、クラッシュ後にシステムを再起動した場合は、代わりに。 - わかりました、これが完全な
Xorg.0.log.old
ファイルです: paste.ubuntu .com / p / 925mb7xMtz ご協力いただきありがとうございます。xf86CloseConsole: KDSETMODE failed
、VT_GETMODE
およびVT_ACTIVATE
と表示されます。そして事前に私のGPUについて言及しました。 - うーん、それは重大なエラーなしでX11サーバーのシャットダウンが成功したように見えます。そのログがクラッシュによるものである場合、その理由はおそらく、ディスプレイマネージャプロセスがクラッシュしていて、副作用としてX11セッションが終了しているためです。システムに
/var/log/*dm.log
に一致するログファイルがありますか?または、Ubuntu18.04がjournald
ベースのロギングで標準化されている場合は、/var/log/journal
ディレクトリが存在することを確認してください。そうすれば、
は、前回の起動からシャットダウンまでのログを表示します。
*dm.log
はありませんが、jounal
-すべてが機能しました。ここに重要な時点の前後にログを貼り付けました: paste.ubuntu.com/p/37XmRYRpVK 回答
これは少し長いショットかもしれませんが、今日私のマシンで説明したのとまったく同じ症状がありました(クラッシュしてから後で黒い画面ではなくログアウトします。
私もUbuntu18.04を使用しており、NvidiaGPUを使用しています。
これはNvididaドライバーの問題である可能性があると全員が言っていますが、私は私たちの問題に部分的にしか適用されていませんが、このスレッドで答えを出すことにしました:
-
nvidiaドライバーを削除する
sudo apt-get purge nvidia*
-
再起動
-
Nvididaドライバーを再インストールします
これまでのところ、黒い画面や突然のログアウトはありません
コメント
- わかりました、’これを試してみます!
- G問題が解決した場合は、アップデートをお知らせください:)
- クイックノート:
zsh
を使用しているため、を引用符で囲みます。 github.com/robbyrussell/oh-my-zsh/issues/6748 を参照してください。
回答
別の解決策はこちら。私はすでに同じ問題を抱えていて、私の場合に役立つ提案された解決策を見つけることができませんでした。 VMwareワークステーションを使用しましたが、Ubuntuの起動時に同じ問題が発生しました。私の場合のクラッシュの主な理由は、グラフィックカードドライバまたはこのようなものによるものではありませんでした。インストールされたUbuntuに十分な空き容量がありませんでした。そのため、以下の手順で問題を解決しました。
1)次の行を追加して.vmx構成ファイルを変更します。
bios.bootDelay = “50000”
*これにより、起動時間が長くなります。したがって、遅延は、Shift + Enterを使用してグラブメニューに入ることができます。
* Windowsで.vmxファイルを開く際に問題が発生した場合は、最初にファイルの拡張子を.txtに変更し、次に前述の行を追加してファイルを保存してから、拡張子をに戻します。 .vmx
2)VMwareを実行してUbuntuを実行します
3)画面をクリックした後、Shiftキーを押したまま、Enterキーを押してgrubメニューに入ります。
4)Ubuntuの詳細オプションを選択します。
5)ルートを選択してEnterキーを押します。
6)これで、ファイルを削除するためのルートアクセス権が付与されます。 Ubuntuに空き領域を作るため。
一部のユーザーは、Alt + Shift + F2またはF3を使用して端末にアクセスすることを提案していることに注意してください。 rootユーザーのパスワードがなかったため、これは機能しませんでした。ただし、次の手順を使用すると、問題を解決するのに役立ちました。
幸運、ハメッド
回答
私の場合、それは gdm3 が実行されていません。そこで、次のコマンドを使用して再起動しました。
sudo service gdm3 status (to ckeck status) sudo service gdm3 start
lightgdm、gdm、gdmのいずれを使用しているかは関係ありません。使用しているものを確認するにはsudo service --status-all | grep gdm
回答
これは私が見たことのない別の解決策です他の場所では、共有すると役立つと思いました。
Ubuntu 20.04 LTS、amd64ディストリビューションを使用していますが、” / dev / sda1:clean … “エラー。私の場合、問題の2番目の原因は、 ディスクがいっぱいだった でした。 p>
したがって、この症状がある場合は、df
またはdf -h
を実行して、残りの容量を確認してください。パーティション。 du
またはdu -h
コマンドを使用すると、大量のデータを含むディレクトリに焦点を当てることができます。解決策は、不要なファイルを削除するのと同じくらい簡単かもしれません。
しかし、私の場合、/ var / logディレクトリは約100GB(?!)であり、システムの問題が原因であることが判明しました。 / var / log / syslogファイルに絶えず書き込み、最終的にはドライブがいっぱいになります。それが問題の主な原因でした。この時点では、どのリソースが原因であるかはわかりませんが、/ var / log / syslogファイルをチェックするといくつかのポインタが得られる可能性があります。これが当てはまる場合は、/ var / log / syslogファイルを適切に削除する方法を調査してから、問題の主な原因を解決することをお勧めします。
私のシステムには何もありません。重要なことなので、ログファイルを保持することに興味がなかったので、logrotateパッケージをインストールし、毎日のローテーションを設定し、ローテーションされたファイルを削除するようにシステムを構成しました。大きなジャーナルファイルも見つかったので、rootとしてcronjobを設定して、1日より古いジャーナルファイルを削除しました。これは、ルートとしてcrontab -e
を使用して実行し、次の行をファイルの最後に追加します。
0 * * * * journalctl –vacum-time = 1d
apt-get update
とapt-get upgrade
のサイクルも適切に行いました。
いくつかお勧めしますさらに読む:
https://ma.ttias.be/clear-systemd-journal/
https://github.com/andyholmes/gnome-shell-extension-gsconnect/issues/588 https://askubuntu.com/questions/515146/very-large-log-files-what-should-i-do https://kifarunix.com/how-to-configure-log-rotation-with-logrotate-on-ubuntu-18-04-lts/
デバッグを楽しんで、幸運を祈ります。
8bitrocks
回答
このの問題。すでにたくさんの質問があり、問題が修正されたようであるため、新しい質問を開きたくありませんでした。そこで、関連するトピックへの回答を書くことにしました(実際に回答を書くことができ、10のレピュテーションポイントなどは必要ありません)。
始める前に、いくつかの仕様:
- Ubuntu 18.04.4
- Windowsとのデュアルブート
- 私のPCにはAMDRadeon RX 5500XTグラフィックカードが搭載されています
詳細については、今は考えていません—お知らせください。
この問題に最初に遭遇したのは、次のようになりました。デュアルブートメニューでUbuntuを選択していました。 。このメニューの背景は紫色です。 [Enter]をクリックすると、メニューが消えましたが(本来あるべきように)、紫色の背景が少なくとも15分間残っていました。再起動することにしました。少しグーグルした後、私はなんとかリカバリモードに入り、/etc/default/grub
行
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"
to
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash nomodeset"
再起動したところ、次のメッセージが点滅する画面が表示されました
/dev/sdb1: Superblock last mount time is in the future. (by less than a day, probably due to the hardware clock being incorrectly set) /dev/sdb1: Superblock last write time is in the future. (by less than a day, probably due to the hardware clock being incorrectly set) /dev/sdb1: clean, 30163/6594560 files, 5137309/26366943 blocks
毎回〜 10秒で約0.5秒。ここで私は、この問題がインストールされたグラフィックドライバに関連していることをすでに「知っていました」。 AMDグラフィックカードのドライバーをアンインストールするために、リカバリモードで再起動しました
$ amdgpu-pro-uninstall
この後、Ubuntuは正常に起動しましたが、モニターが1台しかなかったという事実があります。変更できない1024×768の解像度で認識されました(1920×1080のモニターが2台あります)。さらにグーグルした後、ファイルetc/fstab
を
# /etc/fstab: static file system information. # # Use "blkid" to print the universally unique identifier for a # device; this may be used with UUID= as a more robust way to name devices # that works even if disks are added and removed. See fstab(5). # # <file system> <mount point> <type> <options> <dump> <pass> # / was on /dev/sdb1 during installation UUID=b440d779-f2d8-4e85-a425-86c264cf1086 / ext4 errors=remount-ro 0 1 # /boot/efi was on /dev/nvme0n1p2 during installation UUID=4E80-9146 /boot/efi vfat umask=0077 0 1 # /home was on /dev/sdb3 during installation UUID=3b2456a3-8d84-41f8-81b1-094c3014126f /home ext4 defaults 0 2 # swap was on /dev/sdb2 during installation UUID=5d727b45-f3f0-40ad-8f6b-41528f8fb611 none swap sw 0 0
から
(最初の非コメント行の最後の番号1
を0
に変更しました) 。 AMD gpuドライバーを再インストールし、再起動すると、問題は解決しました。これを1920×1080の解像度で2台のモニターに書き込んでいます。また、/etc/default/grub
のnomodeset
も削除しました。
したがって、誰かが同じ問題を抱えている場合、おそらくこの人が私の答えを見つけ、私のアプローチが問題を解決するでしょう。
smartmontools
をインストールし、ドライブのSMARTデータを確認することです。smartctl --all /dev/sda
の出力にも興味があります。